Kyutai 1.6B Streaming TTS
10 months ago
- #AI
- #text-to-speech
- #streaming
- Kyutai TTS是一款流式文本转语音模型,能够在输入前几个单词时立即开始输出音频。
- 该模型采用分层Transformer架构,包含10亿参数的主干网络和6亿参数的深度Transformer。
- 支持英语和法语,以12.5Hz的帧率运行,每帧包含32个音频标记。
- 可通过预计算嵌入实现语音条件控制,但模型不直接支持无分类器引导(CFG)。
- 训练过程包含75万步,批量大小为64,预训练阶段使用了32块NVIDIA H100 GPU。
- 模型采用CC-BY 4.0许可协议,由于对开源模型效果有限,未采用水印技术。