Hasty Briefsbeta

双语

Kyutai 1.6B Streaming TTS

10 months ago
  • #AI
  • #text-to-speech
  • #streaming
  • Kyutai TTS是一款流式文本转语音模型,能够在输入前几个单词时立即开始输出音频。
  • 该模型采用分层Transformer架构,包含10亿参数的主干网络和6亿参数的深度Transformer。
  • 支持英语和法语,以12.5Hz的帧率运行,每帧包含32个音频标记。
  • 可通过预计算嵌入实现语音条件控制,但模型不直接支持无分类器引导(CFG)。
  • 训练过程包含75万步,批量大小为64,预训练阶段使用了32块NVIDIA H100 GPU。
  • 模型采用CC-BY 4.0许可协议,由于对开源模型效果有限,未采用水印技术。