Open source voice cloning TTS models worth trying

a day ago

四个开源语音克隆模型（OmniVoice、LongCat-AudioDiT、FireRedTTS-2、Fish Audio S2 Pro）如今在质量和功能上已能与商业文本转语音技术媲美。
OmniVoice支持600多种语言，具备语音设计功能且推理速度快，但需要清晰的音频以获得最佳效果。
LongCat-AudioDiT利用波形潜在空间绕过频谱图，实现高说话人相似度，但其较大版本需要高性能GPU。
FireRedTTS-2支持低延迟流式多说话人对话，但模型体积较大，主要适用于中文和英文。
Fish Audio S2 Pro通过标签实现精细的情感控制，输出近乎人声，但存在许可限制，且自托管需GPU支持。
这些模型表明，开源文本转语音技术已弥合与商业方案的差距，为多语言及会话语音生成等多样化应用提供可能。

Hasty Briefsbeta