TADA: Fast, Reliable Speech Generation Through Text-Acoustic Synchronization
2 months ago
- #AI
- #Text-to-Speech
- #Voice Technology
- TADA(文本-声学双重对齐)提出了一种新颖的标记化方案,实现文本与语音的一一对应同步,解决了基于LLM的TTS系统中的不匹配问题。
- TADA是目前最快的基于LLM的TTS系统,在保持竞争力的语音质量同时,几乎实现零内容幻觉,且轻量化设计适合终端设备部署。
- 该方法将音频表征直接对齐到文本标记,创建同步数据流使文本与语音严格同步,显著提升生成速度与可靠性。
- TADA的实时因子(RTF)低至0.09,比同类系统快5倍以上,测试中实现零幻觉生成。
- 人工评估显示TADA在说话人相似度(4.18/5.0)和自然度(3.78/5.0)上表现优异,特别适合富有表现力的长文本语音合成。
- 潜在应用场景包括终端设备部署、长文本与会话语音合成,以及在受监管环境中满足生产可靠性要求。
- 当前局限包括长语音生成时偶发的说话人特征漂移,以及语音文本联合生成时的模态间隙问题,相关改进研究正在进行。
- Hume AI正在开源TADA框架,发布10亿和30亿参数模型,邀请研究者基于此开发新应用并推动技术改进。