Open source voice cloning TTS models worth trying
a day ago
- #voice-cloning
- #text-to-speech
- #open-source-ai
- 四个开源语音克隆模型(OmniVoice、LongCat-AudioDiT、FireRedTTS-2、Fish Audio S2 Pro)如今在质量和功能上已能与商业文本转语音技术媲美。
- OmniVoice支持600多种语言,具备语音设计功能且推理速度快,但需要清晰的音频以获得最佳效果。
- LongCat-AudioDiT利用波形潜在空间绕过频谱图,实现高说话人相似度,但其较大版本需要高性能GPU。
- FireRedTTS-2支持低延迟流式多说话人对话,但模型体积较大,主要适用于中文和英文。
- Fish Audio S2 Pro通过标签实现精细的情感控制,输出近乎人声,但存在许可限制,且自托管需GPU支持。
- 这些模型表明,开源文本转语音技术已弥合与商业方案的差距,为多语言及会话语音生成等多样化应用提供可能。