Hasty Briefsbeta

双语

Qwen3-VL can scan two-hour videos and pinpoint nearly every detail

6 months ago

#Open Source
#Multimodal AI
#Alibaba

阿里巴巴发布Qwen3-VL技术报告，这款开源多模态模型在图像数学任务和视频分析领域表现卓越
该模型可处理256,000标记上下文窗口内的大数据量，包括两小时视频或数百页文档
在'大海捞针'测试中，30分钟视频单帧定位准确率达100%，两小时视频达99.5%
基准测试超越Gemini 2.5 Pro、GPT-5和Claude Opus 4.1等竞争对手，尤其在视觉数学任务中优势明显
MathVista得分85.8%，MathVision得分74.6%，均领先同业
专业基准表现突出：DocVQA达96.5%，OCRBench（39种语言）875分，GUI代理任务表现强劲
擅长处理复杂PDF文档和科学图表，MMLongBench-Doc得分56.2%，CharXiv达90.5%
通用推理任务稍逊，MMMU-Pro得分69.3%，低于GPT-5的78.4%
关键架构升级包括交错MRoPE、DeepStack技术和基于文本的时间戳系统
经过四阶段万亿标记训练，上下文窗口从8,000扩展到262,000标记
采用Apache 2.0许可证开源权重参数，模型规模从20亿到2350亿参数不等
Qwen3-VL有望推动多模态AI领域的开源生态发展