Hasty Briefsbeta

双语

Qwen3-VL can scan two-hour videos and pinpoint nearly every detail

6 months ago
  • #Open Source
  • #Multimodal AI
  • #Alibaba
  • 阿里巴巴发布Qwen3-VL技术报告,这款开源多模态模型在图像数学任务和视频分析领域表现卓越
  • 该模型可处理256,000标记上下文窗口内的大数据量,包括两小时视频或数百页文档
  • 在'大海捞针'测试中,30分钟视频单帧定位准确率达100%,两小时视频达99.5%
  • 基准测试超越Gemini 2.5 Pro、GPT-5和Claude Opus 4.1等竞争对手,尤其在视觉数学任务中优势明显
  • MathVista得分85.8%,MathVision得分74.6%,均领先同业
  • 专业基准表现突出:DocVQA达96.5%,OCRBench(39种语言)875分,GUI代理任务表现强劲
  • 擅长处理复杂PDF文档和科学图表,MMLongBench-Doc得分56.2%,CharXiv达90.5%
  • 通用推理任务稍逊,MMMU-Pro得分69.3%,低于GPT-5的78.4%
  • 关键架构升级包括交错MRoPE、DeepStack技术和基于文本的时间戳系统
  • 经过四阶段万亿标记训练,上下文窗口从8,000扩展到262,000标记
  • 采用Apache 2.0许可证开源权重参数,模型规模从20亿到2350亿参数不等
  • Qwen3-VL有望推动多模态AI领域的开源生态发展