Hasty Briefsbeta

双语

Show HN: Dia, an open-weights TTS model for generating realistic dialogue

a year ago
  • #AI
  • #text-to-speech
  • #dialogue-generation
  • Dia是由Nari Labs研发的16亿参数文本转语音模型,可将文本转录转换为拟真对话
  • 核心功能包含情感/语调控制、非语言声音生成(笑声、咳嗽声)及音频条件调节
  • 预训练模型检查点与推理代码已发布于Hugging Face平台
  • 演示页面提供Dia与ElevenLabs Studio、Sesame CSM-1B的对比试听
  • 通过Discord提供社区支持,更大规模模型的访问需加入等候名单
  • 安装指南:克隆GitHub仓库后配置环境,运行Gradio交互界面
  • 附Python代码示例展示如何使用Dia生成对话音频
  • 当前支持GPU(PyTorch 2.0+、CUDA 12.6),CPU支持即将推出
  • 企业级GPU可实现实时音频生成,旧款GPU速度较慢
  • 完整版需约10GB显存,量化版本正在开发中
  • 严格使用限制:禁止身份冒用、欺骗性内容及非法用途
  • 未来规划:增加Docker支持、推理优化与量化方案
  • 开发团队含1名全职与1名兼职工程师,欢迎社区贡献
  • 特别鸣谢:Google TPU研究云计划、SoundStorm、Parakeet及Descript音频编解码器