Qwen3-Omni: Native Omni AI Model for Text, Image & Video
5 months ago
- #real-time processing
- #multimodal AI
- #multilingual support
- Qwen3-Omni是一个多语言全模态基础模型,能够处理文本、图像、音频和视频,并以文本和自然语音形式提供实时流式响应。
- 关键特性包括跨模态的顶尖性能表现,支持119种文本语言、19种语音输入语言和10种语音输出语言。
- 该模型采用创新的基于MoE的Thinker-Talker架构,通过AuT预训练和多码本设计实现低延迟。
- Qwen3-Omni支持低延迟流式音视频实时交互,并可通过系统提示进行灵活控制。
- 模型包含专为低幻觉音频描述设计的开源组件Qwen3-Omni-30B-A3B-Captioner。
- 可通过Hugging Face Transformers、vLLM或DashScope API部署,大规模或低延迟场景推荐使用vLLM。
- 支持批量推理、实时音频输出及可定制音色(Ethan、Chelsie、Aiden三种声线)。
- 性能基准测试显示,Qwen3-Omni在36项音视频基准中22项达到SOTA,开源模型在32项中领先。
- 提供不同版本:Qwen3-Omni-30B-A3B-Instruct指令版、Thinking思维版及Captioner描述版。
- 提供本地部署指南、网页演示教程及Docker镜像使用说明。