Qwen3-VL-30B-A3B-Instruct and Thinking
8 months ago
- #AI
- #multimodal
- #vision-language model
- Qwen3-VL是Qwen系列中最强大的视觉语言模型
- 全面升级包括:更卓越的文本理解能力、更深入的视觉感知、更长的上下文处理长度,以及增强的空间关系和视频动态理解能力
- 提供Dense和MoE两种架构版本,并推出指令微调版(Instruct)与思维增强版(Thinking)
- 核心升级:视觉智能体、视觉编码增强、高级空间感知、长上下文&视频理解、强化多模态推理、升级版视觉识别、扩展OCR能力
- 模型架构更新:交错式MRoPE位置编码、DeepStack深度堆叠技术、文本-时间戳对齐机制
- 性能亮点包括多模态能力展示和快速入门使用示例
- 提供Qwen3-VL及相关研究的引用文献