Voxtral – Frontier open source speech understanding models
10 months ago
- #AI-models
- #speech-recognition
- #open-source
- Voxtral前沿开源语音理解模型的介绍
- 语音作为最原始自然的人机交互方式
- 当前语音系统的局限性:不可靠、封闭且脆弱
- Voxtral模型旨在通过卓越的转录、深度理解、多语言流畅性和开放部署来弥合差距
- 提供两种规格:24B参数版本适用于生产环境,3B参数版本适合本地/边缘部署,均采用Apache 2.0开源协议
- Voxtral以不到同类API一半的价格,提供最先进的准确性和语义理解能力
- 功能包括:长文本上下文支持(30-40分钟)、内置问答与摘要、多语言识别、语音指令触发操作
- 基准测试显示Voxtral在转录和理解任务上超越Whisper、GPT-4o mini和Gemini 2.5 Flash等领先模型
- 免费体验方式:本地下载、API调用或通过Le Chat语音模式测试
- 企业级功能包含:私有化部署、领域定制微调、高级上下文处理和专属集成支持
- 即将推出:说话人分离、音频标记、词级时间戳、非语音环境音识别
- 8月6日将举办线上研讨会展示语音驱动智能体
- 诚聘研究科学家和工程师共同推进语音交互技术