Audio is the one area small labs are winning
3 months ago
- #Audio
- #AI
- #Startups
- 音频AI模型(特别是语音领域的TTS/STS/STT技术)正由资金不足的初创公司比大型实验室更有效地推进开发
- 开放音频实验室Kyutai开发的Moshi是首个实时全双工会话AI模型,具备160毫秒延迟的打断与附和能力
- Moshi由4人研究团队耗时6个月完成,完全开源且支持移动端部署
- 音频AI长期受限于数据稀缺性、文化偏见和高质量音频生成复杂度而被忽视
- 小团队在音频AI领域超越大型实验室的优势在于决策敏捷、垂直领域专精和零官僚成本
- Kyutai的创新包括全双工会话的多流建模技术,以及能高效压缩语音/音乐/通用音频的Mimi神经编解码器
- 类似Moshi的音频模型(70亿参数)比文本模型(Llama3.1的4050亿参数)更轻量化且训练成本更低,适合小团队开发
- Kyutai分拆公司Gradium专注研究级音频模型产品化,已融资7000万美元用于打通科研与产品的最后一公里