Hasty Briefsbeta

双语

GLM-4.5: Reasoning, Coding, and Agentic Abililties

10 months ago
  • #AI Models
  • #Machine Learning
  • #Natural Language Processing
  • 介绍GLM家族最新旗舰模型GLM-4.5和GLM-4.5-Air
  • GLM-4.5总参数量3550亿(活跃参数320亿),GLM-4.5-Air总参数量1060亿(活跃参数120亿)
  • 两款模型统一整合推理、编程和智能体能力,满足复杂应用需求
  • 混合推理模式:思维模式(复杂推理)与非思维模式(即时响应)
  • 已登陆Z.ai平台、Z.ai API接口,并在HuggingFace和ModelScope开源权重
  • 在12项基准测试中与OpenAI、Anthropic、Google DeepMind等模型对比
  • GLM-4.5综合排名第三,在智能体任务、推理和编程领域表现突出
  • 智能体任务:128k上下文长度、原生函数调用能力,TAU-bench和BFCL-v3等基准测试表现优异
  • 网页浏览性能:超越Claude-4-Opus,接近o4-mini-high水平
  • 推理基准:在MMLU Pro、AIME24、MATH 500和GPQA测试中展现强劲实力
  • 编程基准:SWE-bench Verified和Terminal Bench成绩优异,工具调用成功率高达90.6%
  • 全栈开发能力:涵盖前端、后端及数据库管理
  • 模型架构:采用无损平衡路由的MoE、Sigmoid门控及分组查询注意力机制
  • 训练阶段:15000亿通用token预训练+7000亿代码推理token训练,后续进行领域微调
  • 强化学习基础设施'slime'实现高效可扩展训练
  • 训练后优化:监督微调+针对推理与智能体任务的专项强化学习