Hasty Briefsbeta

双语

Kyutai 1.6B Streaming TTS

10 months ago

#AI
#text-to-speech
#streaming

Kyutai TTS是一款流式文本转语音模型，能够在输入前几个单词时立即开始输出音频。
该模型采用分层Transformer架构，包含10亿参数的主干网络和6亿参数的深度Transformer。
支持英语和法语，以12.5Hz的帧率运行，每帧包含32个音频标记。
可通过预计算嵌入实现语音条件控制，但模型不直接支持无分类器引导(CFG)。
训练过程包含75万步，批量大小为64，预训练阶段使用了32块NVIDIA H100 GPU。
模型采用CC-BY 4.0许可协议，由于对开源模型效果有限，未采用水印技术。