Hasty Briefsbeta

双语

Show HN: Dia, an open-weights TTS model for generating realistic dialogue

a year ago

#AI
#text-to-speech
#dialogue-generation

Dia是由Nari Labs研发的16亿参数文本转语音模型，可将文本转录转换为拟真对话
核心功能包含情感/语调控制、非语言声音生成（笑声、咳嗽声）及音频条件调节
预训练模型检查点与推理代码已发布于Hugging Face平台
演示页面提供Dia与ElevenLabs Studio、Sesame CSM-1B的对比试听
通过Discord提供社区支持，更大规模模型的访问需加入等候名单
安装指南：克隆GitHub仓库后配置环境，运行Gradio交互界面
附Python代码示例展示如何使用Dia生成对话音频
当前支持GPU（PyTorch 2.0+、CUDA 12.6），CPU支持即将推出
企业级GPU可实现实时音频生成，旧款GPU速度较慢
完整版需约10GB显存，量化版本正在开发中
严格使用限制：禁止身份冒用、欺骗性内容及非法用途
未来规划：增加Docker支持、推理优化与量化方案
开发团队含1名全职与1名兼职工程师，欢迎社区贡献
特别鸣谢：Google TPU研究云计划、SoundStorm、Parakeet及Descript音频编解码器