Hasty Briefsbeta

双语

Qwen 3.5 small models out

9 hours ago
  • #AI
  • #LanguageModel
  • #Multimodal
  • Qwen3.5-35B-A3B是Hugging Face Transformers格式的预训练后模型,兼容vLLM、SGLang和KTransformers等多种推理框架。
  • 阿里云Model Studio为Qwen3.5提供托管API服务,其中Qwen3.5-Flash具备扩展上下文长度和内置工具功能。
  • Qwen3.5在多模态学习、架构效率、强化学习可扩展性和全球语言覆盖(201种语言)方面取得重大突破。
  • 核心升级包括:统一视觉语言基础框架、高效混合架构、可扩展强化学习泛化能力及新一代训练基础设施。
  • 模型规格:350亿总参数(激活30亿)、40层网络、原生262,144上下文长度(可扩展至100万token)、混合专家架构。
  • 基准测试显示其在知识问答、指令跟随、长上下文处理、STEM推理、编程及多语言任务中均具竞争力。
  • 视觉语言基准测试展现出在STEM学科、通用视觉问答、文本识别、空间智能、视频理解及医疗问答的强劲能力。
  • 提供通过SGLang/vLLM/KTransformers/Hugging Face Transformers部署Qwen3.5的快速指南,含性能优化建议。
  • API调用示例涵盖文本/图像/视频输入,包含通用任务、编程和推理等场景的采样参数配置。
  • 智能代理应用支持Qwen-Agent终端自动化、工具调用功能,以及通过YaRN缩放处理超长文本。
  • 最佳实践包括推荐采样参数、适当输出长度(32K-81K token)及基准测试标准化输出格式。
  • 提供学术引用格式,便于在原生多模态智能体研究中引用Qwen3.5相关工作。