Hasty Briefsbeta

双语

Audio is the one area small labs are winning

3 months ago

#Audio
#AI
#Startups

音频AI模型（特别是语音领域的TTS/STS/STT技术）正由资金不足的初创公司比大型实验室更有效地推进开发
开放音频实验室Kyutai开发的Moshi是首个实时全双工会话AI模型，具备160毫秒延迟的打断与附和能力
Moshi由4人研究团队耗时6个月完成，完全开源且支持移动端部署
音频AI长期受限于数据稀缺性、文化偏见和高质量音频生成复杂度而被忽视
小团队在音频AI领域超越大型实验室的优势在于决策敏捷、垂直领域专精和零官僚成本
Kyutai的创新包括全双工会话的多流建模技术，以及能高效压缩语音/音乐/通用音频的Mimi神经编解码器
类似Moshi的音频模型（70亿参数）比文本模型（Llama3.1的4050亿参数）更轻量化且训练成本更低，适合小团队开发
Kyutai分拆公司Gradium专注研究级音频模型产品化，已融资7000万美元用于打通科研与产品的最后一公里