Qwen3.5
3 months ago
- #AI
- #Language Model
- #Multimodal
- Qwen3.5-397B-A17B是Hugging Face Transformers格式的预训练模型,兼容vLLM和SGLang等框架
- 阿里云Model Studio为Qwen3.5提供托管API服务,Qwen3.5-Plus版本支持100万上下文长度及内置工具等扩展功能
- Qwen3.5在多模态学习、架构效率、强化学习可扩展性和全球语言支持(201种语言)方面实现突破
- 核心升级包括:统一视觉语言基础框架、高效混合架构、可扩展的强化学习泛化能力、新一代训练基础设施
- 模型规格:3970亿总参数/170亿激活参数、60层网络、原生支持262,144上下文长度(可扩展至100万token)
- 基准测试显示其在知识、推理、STEM、多语言及视觉语言任务中均具竞争力
- 提供API使用指南、SGLang/vLLM部署方案及OpenAI兼容API集成方案
- 突出智能体能力,推荐使用Qwen-Agent和Qwen Code构建应用程序
- 通过YaRN缩放技术支持百万token级超长文本处理
- 最佳实践包括:优化采样参数、设置充足输出长度、采用标准化输出格式进行基准测试