Hasty Briefsbeta

双语

TADA: Fast, Reliable Speech Generation Through Text-Acoustic Synchronization

2 months ago

#AI
#Text-to-Speech
#Voice Technology

TADA（文本-声学双重对齐）提出了一种新颖的标记化方案，实现文本与语音的一一对应同步，解决了基于LLM的TTS系统中的不匹配问题。
TADA是目前最快的基于LLM的TTS系统，在保持竞争力的语音质量同时，几乎实现零内容幻觉，且轻量化设计适合终端设备部署。
该方法将音频表征直接对齐到文本标记，创建同步数据流使文本与语音严格同步，显著提升生成速度与可靠性。
TADA的实时因子(RTF)低至0.09，比同类系统快5倍以上，测试中实现零幻觉生成。
人工评估显示TADA在说话人相似度(4.18/5.0)和自然度(3.78/5.0)上表现优异，特别适合富有表现力的长文本语音合成。
潜在应用场景包括终端设备部署、长文本与会话语音合成，以及在受监管环境中满足生产可靠性要求。
当前局限包括长语音生成时偶发的说话人特征漂移，以及语音文本联合生成时的模态间隙问题，相关改进研究正在进行。
Hume AI正在开源TADA框架，发布10亿和30亿参数模型，邀请研究者基于此开发新应用并推动技术改进。