Hasty Briefsbeta

双语

Audio is the one area small labs are winning

3 months ago
  • #Audio
  • #AI
  • #Startups
  • 音频AI模型(特别是语音领域的TTS/STS/STT技术)正由资金不足的初创公司比大型实验室更有效地推进开发
  • 开放音频实验室Kyutai开发的Moshi是首个实时全双工会话AI模型,具备160毫秒延迟的打断与附和能力
  • Moshi由4人研究团队耗时6个月完成,完全开源且支持移动端部署
  • 音频AI长期受限于数据稀缺性、文化偏见和高质量音频生成复杂度而被忽视
  • 小团队在音频AI领域超越大型实验室的优势在于决策敏捷、垂直领域专精和零官僚成本
  • Kyutai的创新包括全双工会话的多流建模技术,以及能高效压缩语音/音乐/通用音频的Mimi神经编解码器
  • 类似Moshi的音频模型(70亿参数)比文本模型(Llama3.1的4050亿参数)更轻量化且训练成本更低,适合小团队开发
  • Kyutai分拆公司Gradium专注研究级音频模型产品化,已融资7000万美元用于打通科研与产品的最后一公里