Hasty Briefsbeta

双语

Arcee Trinity Mini: US-Trained Moe Model

6 months ago

#AI
#Open Source
#Machine Learning

Mergekit将于2025年10月31日起重新采用GNU宽松通用公共许可证v3。
Arcee发布Trinity Mini——在美国训练的紧凑型混合专家模型，提供开放权重与强大推理能力。
中国实验室如Qwen和DeepSeek在开放权重MoE模型领域处于领先地位。
Arcee AI致力于通过Trinity系列提供完全在美国端到端训练的开放权重模型。
Trinity Nano和Mini现已发布；Trinity Large正在训练中，将于2026年1月推出。
Trinity Mini是经过完整后训练的推理模型，而Trinity Nano是实验性对话模型。
Arcee从后训练开放基础模型转向自主训练基础架构，以实现长期改进。
AFM-4.5B是他们最初的密集模型实验，由此发展出Trinity系列。
Trinity采用afmoe架构，集成门控注意力、Muon技术及美国管控的数据管道。
训练过程结合分组查询注意力、门控注意力及局部/全局注意力模式。
MoE层遵循DeepSeekMoE设计，含128个路由专家，每个令牌激活8个。
训练使用Muon和TorchTitan框架（bf16精度），分三个阶段共10万亿令牌课程。
Trinity Large是4200亿参数模型，每个令牌激活130亿参数。
Arcee呼吁社区测试Trinity模型并提供反馈，以指导未来发展方向。