Open (Apache 2.0) TTS model for streaming conversational audio in realtime
3 months ago
- #TTS
- #Real-time
- #AI
- Dia2是Nari实验室开发的流式对话TTS模型,能够根据实时接收的输入生成音频
- 支持基于音频的条件生成以实现自然对话,提供两种模型检查点(1B和2B参数版本)
- 核心特性包含:基于JAX的Bonsai实现、支持实时流式传输的Dia2 TTS服务器,以及基于Rust的语音对话引擎Sori
- 运行环境需CUDA 12.8+驱动,通过uv工具安装,使用'uv run'命令执行
- 内置CLI工具支持音频生成,可通过说话人前缀实现对话语境的条件生成
- 提供Gradio交互界面简化操作,支持详细的生成配置和输出选项定制
- 采用Apache 2.0开源协议,严禁身份冒用、生成欺骗性内容或用于非法活动
- 特别鸣谢TPU Research Cloud的计算资源支持,并致谢KyutaiTTS和Sesame项目的启发