Hasty Briefsbeta

双语

Qwen3-Omni: Native Omni AI Model for Text, Image & Video

5 months ago

#real-time processing
#multimodal AI
#multilingual support

Qwen3-Omni是一个多语言全模态基础模型，能够处理文本、图像、音频和视频，并以文本和自然语音形式提供实时流式响应。
关键特性包括跨模态的顶尖性能表现，支持119种文本语言、19种语音输入语言和10种语音输出语言。
该模型采用创新的基于MoE的Thinker-Talker架构，通过AuT预训练和多码本设计实现低延迟。
Qwen3-Omni支持低延迟流式音视频实时交互，并可通过系统提示进行灵活控制。
模型包含专为低幻觉音频描述设计的开源组件Qwen3-Omni-30B-A3B-Captioner。
可通过Hugging Face Transformers、vLLM或DashScope API部署，大规模或低延迟场景推荐使用vLLM。
支持批量推理、实时音频输出及可定制音色（Ethan、Chelsie、Aiden三种声线）。
性能基准测试显示，Qwen3-Omni在36项音视频基准中22项达到SOTA，开源模型在32项中领先。
提供不同版本：Qwen3-Omni-30B-A3B-Instruct指令版、Thinking思维版及Captioner描述版。
提供本地部署指南、网页演示教程及Docker镜像使用说明。