GLM-4.5: Reasoning, Coding, and Agentic Abililties
10 months ago
- #AI Models
- #Machine Learning
- #Natural Language Processing
- 介绍GLM家族最新旗舰模型GLM-4.5和GLM-4.5-Air
- GLM-4.5总参数量3550亿(活跃参数320亿),GLM-4.5-Air总参数量1060亿(活跃参数120亿)
- 两款模型统一整合推理、编程和智能体能力,满足复杂应用需求
- 混合推理模式:思维模式(复杂推理)与非思维模式(即时响应)
- 已登陆Z.ai平台、Z.ai API接口,并在HuggingFace和ModelScope开源权重
- 在12项基准测试中与OpenAI、Anthropic、Google DeepMind等模型对比
- GLM-4.5综合排名第三,在智能体任务、推理和编程领域表现突出
- 智能体任务:128k上下文长度、原生函数调用能力,TAU-bench和BFCL-v3等基准测试表现优异
- 网页浏览性能:超越Claude-4-Opus,接近o4-mini-high水平
- 推理基准:在MMLU Pro、AIME24、MATH 500和GPQA测试中展现强劲实力
- 编程基准:SWE-bench Verified和Terminal Bench成绩优异,工具调用成功率高达90.6%
- 全栈开发能力:涵盖前端、后端及数据库管理
- 模型架构:采用无损平衡路由的MoE、Sigmoid门控及分组查询注意力机制
- 训练阶段:15000亿通用token预训练+7000亿代码推理token训练,后续进行领域微调
- 强化学习基础设施'slime'实现高效可扩展训练
- 训练后优化:监督微调+针对推理与智能体任务的专项强化学习