Hasty Briefsbeta

双语

Open (Apache 2.0) TTS model for streaming conversational audio in realtime

6 months ago

#TTS
#Real-time
#AI

Dia2是Nari实验室开发的流式对话TTS模型，能够根据实时接收的输入生成音频
支持基于音频的条件生成以实现自然对话，提供两种模型检查点（1B和2B参数版本）
核心特性包含：基于JAX的Bonsai实现、支持实时流式传输的Dia2 TTS服务器，以及基于Rust的语音对话引擎Sori
运行环境需CUDA 12.8+驱动，通过uv工具安装，使用'uv run'命令执行
内置CLI工具支持音频生成，可通过说话人前缀实现对话语境的条件生成
提供Gradio交互界面简化操作，支持详细的生成配置和输出选项定制
采用Apache 2.0开源协议，严禁身份冒用、生成欺骗性内容或用于非法活动
特别鸣谢TPU Research Cloud的计算资源支持，并致谢KyutaiTTS和Sesame项目的启发