一手TTS-2语音合成模型安装教程及实际使用

Wait 5 sec.

语音合成正从云端调用走向本地部署，TTS-2 模型作为开源语音生成方案之一，正在被越来越多开发者尝试落地。本篇文章从环境配置到推理调用，详尽拆解 TTS-2 的安装流程与使用技巧，为语音产品开发者提供一份可复用的实操指南。最近一个月，在网上被鬼畜的同音替换视频洗脑了，相信不少人已经看过：（取自bilibili官方视频）: https://index-tts.github.io/index-tts2.github.io/简单说就是：让视频中的对话用相同的语气、情绪，但是说出一段自定义的话。这就是最近bilibili发布的TTS2 模型。那我天马行空一下，是不是各种语言，各种语气都是可以替换的？作为动手能力极强的我，马上就开干，准备亲手部署TTS2模型并合成一段语音。接下来是我搭配chatPGPT耗时不到2小时的实现。本文分为两大模块，第一块是各种依赖安装，第二模块是模型效果实操。一、基础准备首先准备一台电脑（RAM>8G即可）官方说要8G显卡，但实测下来并不需要，我用的是8G RAM，显卡128MB的低配电脑。然后，按照官方说明，先安装好git和git-lfs。嗯，不出意外的话，果然要出意外了：碰到的第一个问题：在克隆远端仓库时爆出了第一个问题：别急，先问一下GPT。我把完整的报错信息丢给了GPT，并让它帮我分析问题及给出解决方案：紧接着它又给了我两种解决方案，按照它的建议，我选择了方案1：再回到git bash里面执行，回车；GIT_LFS_SKIP_SMUDGE=1 git clone https://github.com/index-tts/index-tts.gitcd index-tts# 以后也避免自动拉 LFSgit lfs install –skip-smudgegit config lfs.fetchexclude “examples/**”完美，错误不见了。接着按照官方的文档继续执行第三步：官方这里说道建议使用uv安装而不要用pip安装，因为uv安装的速度比pip能快到150倍….那就信你，所以我要先安装uv，再用uv安装模型。果断执行uv的安装命令：pip install -U uv果然，不出意外地又出意外了：碰到的第二个问题：pip命令找不到嗯，问题我看懂了，说是这个命令找不到。本着能动嘴坚决不动手，能懒绝不积极的原则，直接把问题抛给GPT：好吧，就是没有安装python。对于我一个变成小白来说，这实属超纲了。然后在GPT的指引下，我来到了Python官网，下载了对应的版本，安装。注意：记得勾选“AddPythontoPATH” 安装完Python之后，要手动关掉git bash窗口，再重新打开：输入命令可以看到已正确安装Python。然后再继续第四步：这里官方说到 “DeepSpeed 库可能难以安装一些 Windows 用户。您可以通过删除标志来跳过它。如果你想要上述任何其他额外功能，您可以手动添加它们特定的功能标志。”起初我并没有在意到下边这个提示，而是直接执行了命令：uv sync –all-extras然后就又双报错了：碰到的第三个问题：路径不对 这一步一个报错，我有点难绷。但想到之后可以随心所欲地替换视频语音，我便又把问题抛给了GPT：有点被GPT鄙视了…按照它的说明，我重新进入到项目里，再执行命令：正常了，一切都在有序进行：事实证明，半场开香槟是大忌！正在我稍有成就感的时候直接又来一个大报错：碰到的第四个问题：deepspeed构建报错一种无力感油然而生….但是很快稳住心态，把问题再抛给GPT，看看什么情况：它快速定位了问题，原来就是deepspeed的构建问题。原来我就是TTS2官方口中的“那些windows用户”…..此时我才关注到忽略了官方这里的特别提示，建议不要加 –all-extras。所以命令换成新的，执行一遍：# 在项目根目录（有 pyproject.toml 的目录uv sync # 不加 –all-extras完美，看起来是把之前的不需要的文件移除了：终于通过了前期的各项准备之后，要来到重头戏了，通过uv tool 安装模型：官方提供了两个下载源，一个是huggingface（抱抱脸），一个是modelscope。我选了后者。（因为抱抱脸会让我想起来抱脸虫…）无脑执行命令即可：uv tool install “modelscope”modelscope download –model IndexTeam/IndexTTS-2 –local_dir checkpoints会看到顺利执行：但有了上次半场开香槟的尴尬经历后，我谨慎了许多，以防止再有报错。果然，又没让我失望：碰到的第五个问题：路径不对 同样，再抛给AI：按照AI的说法执行了一遍，最后试一下看看modelscope是否ok：uvx modelscope –help顺利出现：至此，模型的安装已经顺利完成~二、效果实操完成安装之后，执行下述命令启动：uv run webui.py然后系统就开始启动，过程有点慢，直到看到出现：Running on local URL: http://0.0.0.0:7860去浏览器打开对应地址：nice！复杂的功能网上有很多，我就不赘述了，试个简单的吧：我说了一段话：你好呀，我是白羊武士，很高兴见到你然后选择用这个语气说：tell me baby,tell me,why?然后合成，搞定～怎么样，很完美！至此，我从0到1跑通了TTS2的本地部署及使用。我有了一个新思路：把（小）电影中的音频提取出来—>用GPT转成中文—>再把中文上传回TTS2—->生成合成语音—->用剪映剪辑视频和语音。这么一来，看电影再也不会听不懂了。本文由 @白羊武士弗拉明戈原创发布于人人都是产品经理。未经作者许可，禁止转载题图来自Unsplash，基于CC0协议该文观点仅代表作者本人，人人都是产品经理平台仅提供信息存储空间服务