Hasty Briefsbeta

双语

Qwen3: Think deeper, act faster

a year ago

#AI
#Language Models
#Machine Learning

Qwen3是通义千问大模型家族的最新成员，在编程、数学和通用能力上具有竞争优势。
开源了两个MoE模型（Qwen3-235B-A22B和Qwen3-30B-A3B）及六个稠密模型，采用Apache 2.0许可证。
Qwen3引入混合思维模式：复杂推理的「思考模式」和快速响应的「非思考模式」。
支持119种语言与方言，提升全球可用性。
通过优化代码和工具调用支持，增强智能体能力。
预训练数据扩展至36万亿token，覆盖多语言和多领域。
后训练采用四阶段流程，强化推理与快速响应能力。
已在Hugging Face、ModelScope和Kaggle等平台上线，支持SGLang、vLLM等部署方案。
高级用法包含通过`/think`和`/no_think`标签动态控制思维模式。
未来工作将聚焦数据规模、模型参数、上下文长度扩展，以及强化长程推理的强化学习技术。