Hasty Briefsbeta

双语

Qwen3: Think deeper, act faster

a year ago
  • #AI
  • #Language Models
  • #Machine Learning
  • Qwen3是通义千问大模型家族的最新成员,在编程、数学和通用能力上具有竞争优势。
  • 开源了两个MoE模型(Qwen3-235B-A22B和Qwen3-30B-A3B)及六个稠密模型,采用Apache 2.0许可证。
  • Qwen3引入混合思维模式:复杂推理的「思考模式」和快速响应的「非思考模式」。
  • 支持119种语言与方言,提升全球可用性。
  • 通过优化代码和工具调用支持,增强智能体能力。
  • 预训练数据扩展至36万亿token,覆盖多语言和多领域。
  • 后训练采用四阶段流程,强化推理与快速响应能力。
  • 已在Hugging Face、ModelScope和Kaggle等平台上线,支持SGLang、vLLM等部署方案。
  • 高级用法包含通过`/think`和`/no_think`标签动态控制思维模式。
  • 未来工作将聚焦数据规模、模型参数、上下文长度扩展,以及强化长程推理的强化学习技术。