Hasty Briefsbeta

双语

GLM-4.5: Reasoning, Coding, and Agentic Abililties

10 months ago

#AI Models
#Machine Learning
#Natural Language Processing

介绍GLM家族最新旗舰模型GLM-4.5和GLM-4.5-Air
GLM-4.5总参数量3550亿（活跃参数320亿），GLM-4.5-Air总参数量1060亿（活跃参数120亿）
两款模型统一整合推理、编程和智能体能力，满足复杂应用需求
混合推理模式：思维模式（复杂推理）与非思维模式（即时响应）
已登陆Z.ai平台、Z.ai API接口，并在HuggingFace和ModelScope开源权重
在12项基准测试中与OpenAI、Anthropic、Google DeepMind等模型对比
GLM-4.5综合排名第三，在智能体任务、推理和编程领域表现突出
智能体任务：128k上下文长度、原生函数调用能力，TAU-bench和BFCL-v3等基准测试表现优异
网页浏览性能：超越Claude-4-Opus，接近o4-mini-high水平
推理基准：在MMLU Pro、AIME24、MATH 500和GPQA测试中展现强劲实力
编程基准：SWE-bench Verified和Terminal Bench成绩优异，工具调用成功率高达90.6%
全栈开发能力：涵盖前端、后端及数据库管理
模型架构：采用无损平衡路由的MoE、Sigmoid门控及分组查询注意力机制
训练阶段：15000亿通用token预训练+7000亿代码推理token训练，后续进行领域微调
强化学习基础设施'slime'实现高效可扩展训练
训练后优化：监督微调+针对推理与智能体任务的专项强化学习