Hasty Briefsbeta

双语

Ling-1T: 1T-parameter model with 50B active parameters per token

7 months ago

#AI
#Machine Learning
#Natural Language Processing

Ling-1T是Ling 2.0系列首款旗舰非思维模型，总参数量达1万亿，单token激活参数量500亿
基于20万亿+高质量、强推理密度token进行预训练，支持128K上下文长度，采用进化思维链（Evo-CoT）流程
在复杂推理基准测试中实现最先进性能，精准平衡准确率与效率
通过语法-功能-美学混合奖励机制，在视觉推理和前端代码生成领域表现卓越
在万亿参数规模展现出涌现式推理和迁移学习能力
基于专为万亿级效率设计的Ling 2.0架构，核心创新包括1万亿总参数/500亿激活参数配置及FP8训练
后训练阶段采用Evo-CoT进行渐进式推理增强，并引入LPO实现句子级策略优化
在知识、代码、数学、推理、智能体和对齐基准测试中完成全面评估
已在Hugging Face和ModelScope平台开放下载，提供API调用与部署的快速入门指南
未来计划将提升注意力效率、智能体能力及对齐性