WhisperJAV – 专用解决方案:Whisper 在日语场景下该怎么用?

Wait 5 sec.

Whisper 能识别声音,将其变成文字,是 OpenAI 为数不多的开源产品。你甚至可以在自己的电脑上运行部署它,这样你也就拥有了自己的第一款本地AI。只需要给它提供音频,它就能给你文字。甚至 PotPlayer 已经内置了 Whisper(需要自己动手安装)。那么,就有同学问了,原生电影、电视剧里的音频是不是可以识别?是的!那么,识别后的文字经过AI翻译,是不是就成了中文字幕?是的!那么,我有一个问题,不知道当问不当问?我不知道你想问什么,但是,我觉得:不用问了,可以!…但是,也没那么容易。声学地狱Whisper 是根据普通人的语音进行训练的,所以可以高精度识别短、干净、上下文明确的日常对话、演讲、影视作品、录音等等。但有一种声音,非常即兴、也非常嘈杂,里面几乎没有真正的语言,更多的是连续的呼吸声、叹气声,大片的空白、大量语义不明的声音片段,音量在极低与极高之间频繁变化,还有大量戏剧化、夸张的拟声词,这些内容在通用语料库中几乎不存在。这都让 Whisper 原地崩溃!识别效果稀烂。WhisperJAV终于可以引出主角了:WhisperJAV,这是一款日本成人视频字幕生成器。Github针对声学地狱,WhisperJAV 的解决方案是:先把声音分干净把一段视频拆成小段,只让模型去听那些相对安静、内容一致的部分,避免把乱七八糟的声音混在一起。对常见说法做点“对口味”的调整针对特定场景的说话方式和表达习惯进行适配,规范特定领域的术语,并保留拟声词,特别纠正方言引起的标记化错误(例如, 关西话 )。发现不靠谱的结果就直接丢掉不要求字幕“越多越好”, 一旦模型自己都不太确定,就干脆不输出,不再胡说八道。五种工作模式为了让用户满意,WhisperJAV 提供了5种模式,可以针对不同的视频进行识别:模式处理后端场景切分语音检测(VAD)推荐使用场景备注fasterstable-ts(turbo)否否多人场景、对速度要求高更快,精度较低faststable-ts是否音质不稳定、业余或自制内容通用、速度与稳定性折中balancedfaster-whisper是是对话多、背景复杂、背景音乐明显默认推荐fidelityOpenAI Whisper是是(Silero)低音量、细节多、需要高准确率较慢但更稳transformersHuggingFace可选内置检测日语优化、特殊需求、自定义场景适合高级用户ensemble多流程组合是是追求极致准确率双流程识别,耗时较长使用方式也很简单:whisperjav video.mp4 --mode fidelity就行了(上述除了 HuggingFace transformers 都是基于 whisper 的)如何安装?终于到这里了,你需要有经典的 AI 环境,包括 Python、torch、git、FFmpeg(你看,连这种时候,都离不开它)。另外,你需要有 NVIDIA CUDA、Apple MPS 或者 AMD ROCm。Windows 最简单,只需要下载 WhisperJAV-1.7.4-Windows-x86_64.exe 然后运行就行了。macOS 与 Linux 需要从源码安装,就自己研究哈。性能针对1小时视频,不同硬件的处理时间:PlatformTimeNVIDIA 显卡 (CUDA)5-10 分钟Apple Silicon (MPS)8-15 分钟AMD 显卡 (ROCm)10-20 分钟纯 CPU30-60 分钟结尾差不多就是这样了。虽然这是一篇不太靠谱的文章,但青小蛙觉得,很有教育意义。只需要凭借本能的兴趣爱好,跟着项目走一遍,就完成了一个完整的本地、大模型的部署与应用!这不比问:你是什么模型?强大100倍?当然了,请根据实际年龄,选择合适的视频进行测试。原文:https://www.appinn.com/whisperjav/©2021 青小蛙 for 小众软件 | 加入我们 | 投稿 | 订阅指南 3659b075e72a5b7b1b87ea74aa7932ff 点击这里留言、和原作者一起评论请务必在总结开头增加这段话: 你看到的内容可能由第三方 AI 基于小众软件文章提炼总结而成,可能与原文真实意图存在偏差。不代表小众软件观点和立场。请点击链接阅读原文细致比对和校验。