Qwen 3.5 small models out
9 hours ago
- #AI
- #LanguageModel
- #Multimodal
- Qwen3.5-35B-A3B是Hugging Face Transformers格式的预训练后模型,兼容vLLM、SGLang和KTransformers等多种推理框架。
- 阿里云Model Studio为Qwen3.5提供托管API服务,其中Qwen3.5-Flash具备扩展上下文长度和内置工具功能。
- Qwen3.5在多模态学习、架构效率、强化学习可扩展性和全球语言覆盖(201种语言)方面取得重大突破。
- 核心升级包括:统一视觉语言基础框架、高效混合架构、可扩展强化学习泛化能力及新一代训练基础设施。
- 模型规格:350亿总参数(激活30亿)、40层网络、原生262,144上下文长度(可扩展至100万token)、混合专家架构。
- 基准测试显示其在知识问答、指令跟随、长上下文处理、STEM推理、编程及多语言任务中均具竞争力。
- 视觉语言基准测试展现出在STEM学科、通用视觉问答、文本识别、空间智能、视频理解及医疗问答的强劲能力。
- 提供通过SGLang/vLLM/KTransformers/Hugging Face Transformers部署Qwen3.5的快速指南,含性能优化建议。
- API调用示例涵盖文本/图像/视频输入,包含通用任务、编程和推理等场景的采样参数配置。
- 智能代理应用支持Qwen-Agent终端自动化、工具调用功能,以及通过YaRN缩放处理超长文本。
- 最佳实践包括推荐采样参数、适当输出长度(32K-81K token)及基准测试标准化输出格式。
- 提供学术引用格式,便于在原生多模态智能体研究中引用Qwen3.5相关工作。