TTS Still Sucks
6 months ago
- #TTS
- #Open Source
- #Podcast
- 作者更倾向于使用开源模型进行语音克隆,并为播客生成文章转录文本。
- Kokoro是顶级的开源TTS模型,但不支持语音克隆功能。
- Fish Audio的S1-mini模型存在诸多限制,例如情感标记失效和未启用的分块参数。
- Chatterbox是另一个可选方案,但存在字符数限制(1,000-2,000)且长文本处理有问题。
- 播客生成流程包括:从RSS提取文本→用LLM预处理→通过并行Modal容器进行TTS合成。
- 改进方向包括登陆Spotify平台,以及提供带可点击链接的更完善节目说明。
- Chatterbox等开源TTS模型存在语音时长问题,且无法控制情感标签等功能。
- 尽管技术进步,开源TTS系统仍落后于商业闭源方案。
- 该RSS转播客的完整流程已开源,代码托管于GitHub平台。