Qwen 3.5 small models out

3 months ago

#AI
#LanguageModel
#Multimodal

Qwen3.5-35B-A3B是Hugging Face Transformers格式的预训练后模型，兼容vLLM、SGLang和KTransformers等多种推理框架。
阿里云Model Studio为Qwen3.5提供托管API服务，其中Qwen3.5-Flash具备扩展上下文长度和内置工具功能。
Qwen3.5在多模态学习、架构效率、强化学习可扩展性和全球语言覆盖（201种语言）方面取得重大突破。
核心升级包括：统一视觉语言基础框架、高效混合架构、可扩展强化学习泛化能力及新一代训练基础设施。
模型规格：350亿总参数（激活30亿）、40层网络、原生262,144上下文长度（可扩展至100万token）、混合专家架构。
基准测试显示其在知识问答、指令跟随、长上下文处理、STEM推理、编程及多语言任务中均具竞争力。
视觉语言基准测试展现出在STEM学科、通用视觉问答、文本识别、空间智能、视频理解及医疗问答的强劲能力。
提供通过SGLang/vLLM/KTransformers/Hugging Face Transformers部署Qwen3.5的快速指南，含性能优化建议。
API调用示例涵盖文本/图像/视频输入，包含通用任务、编程和推理等场景的采样参数配置。
智能代理应用支持Qwen-Agent终端自动化、工具调用功能，以及通过YaRN缩放处理超长文本。
最佳实践包括推荐采样参数、适当输出长度（32K-81K token）及基准测试标准化输出格式。
提供学术引用格式，便于在原生多模态智能体研究中引用Qwen3.5相关工作。

Hasty Briefsbeta

Qwen 3.5 small models out