Hasty Briefsbeta

双语

TTS Still Sucks

6 months ago

#TTS
#Open Source
#Podcast

作者更倾向于使用开源模型进行语音克隆，并为播客生成文章转录文本。
Kokoro是顶级的开源TTS模型，但不支持语音克隆功能。
Fish Audio的S1-mini模型存在诸多限制，例如情感标记失效和未启用的分块参数。
Chatterbox是另一个可选方案，但存在字符数限制（1,000-2,000）且长文本处理有问题。
播客生成流程包括：从RSS提取文本→用LLM预处理→通过并行Modal容器进行TTS合成。
改进方向包括登陆Spotify平台，以及提供带可点击链接的更完善节目说明。
Chatterbox等开源TTS模型存在语音时长问题，且无法控制情感标签等功能。
尽管技术进步，开源TTS系统仍落后于商业闭源方案。
该RSS转播客的完整流程已开源，代码托管于GitHub平台。