Hasty Briefsbeta

双语

Voxtral – Frontier open source speech understanding models

10 months ago

#AI-models
#speech-recognition
#open-source

Voxtral前沿开源语音理解模型的介绍
语音作为最原始自然的人机交互方式
当前语音系统的局限性：不可靠、封闭且脆弱
Voxtral模型旨在通过卓越的转录、深度理解、多语言流畅性和开放部署来弥合差距
提供两种规格：24B参数版本适用于生产环境，3B参数版本适合本地/边缘部署，均采用Apache 2.0开源协议
Voxtral以不到同类API一半的价格，提供最先进的准确性和语义理解能力
功能包括：长文本上下文支持（30-40分钟）、内置问答与摘要、多语言识别、语音指令触发操作
基准测试显示Voxtral在转录和理解任务上超越Whisper、GPT-4o mini和Gemini 2.5 Flash等领先模型
免费体验方式：本地下载、API调用或通过Le Chat语音模式测试
企业级功能包含：私有化部署、领域定制微调、高级上下文处理和专属集成支持
即将推出：说话人分离、音频标记、词级时间戳、非语音环境音识别
8月6日将举办线上研讨会展示语音驱动智能体
诚聘研究科学家和工程师共同推进语音交互技术