Qwen3-VL can scan two-hour videos and pinpoint nearly every detail
6 months ago
- #Open Source
- #Multimodal AI
- #Alibaba
- 阿里巴巴发布Qwen3-VL技术报告,这款开源多模态模型在图像数学任务和视频分析领域表现卓越
- 该模型可处理256,000标记上下文窗口内的大数据量,包括两小时视频或数百页文档
- 在'大海捞针'测试中,30分钟视频单帧定位准确率达100%,两小时视频达99.5%
- 基准测试超越Gemini 2.5 Pro、GPT-5和Claude Opus 4.1等竞争对手,尤其在视觉数学任务中优势明显
- MathVista得分85.8%,MathVision得分74.6%,均领先同业
- 专业基准表现突出:DocVQA达96.5%,OCRBench(39种语言)875分,GUI代理任务表现强劲
- 擅长处理复杂PDF文档和科学图表,MMLongBench-Doc得分56.2%,CharXiv达90.5%
- 通用推理任务稍逊,MMMU-Pro得分69.3%,低于GPT-5的78.4%
- 关键架构升级包括交错MRoPE、DeepStack技术和基于文本的时间戳系统
- 经过四阶段万亿标记训练,上下文窗口从8,000扩展到262,000标记
- 采用Apache 2.0许可证开源权重参数,模型规模从20亿到2350亿参数不等
- Qwen3-VL有望推动多模态AI领域的开源生态发展