【摘要】本文深入分析 TTS 扩散模型中音素对齐的核心难点,重点讨论交叉注意力在扩散早期时间步的失效问题,以及 F5-TTS、SupertonicTTS、VoxFlash-TTS 三个系统各自的解决思路。 前言 语音合成系统需要解决一个基本问题:把变长的文本序列映射到变长的音频序列。这个问题看起来简单,但在 阅读全文