Arcee Trinity Mini: US-Trained Moe Model
6 months ago
- #AI
- #Open Source
- #Machine Learning
- Mergekit将于2025年10月31日起重新采用GNU宽松通用公共许可证v3。
- Arcee发布Trinity Mini——在美国训练的紧凑型混合专家模型,提供开放权重与强大推理能力。
- 中国实验室如Qwen和DeepSeek在开放权重MoE模型领域处于领先地位。
- Arcee AI致力于通过Trinity系列提供完全在美国端到端训练的开放权重模型。
- Trinity Nano和Mini现已发布;Trinity Large正在训练中,将于2026年1月推出。
- Trinity Mini是经过完整后训练的推理模型,而Trinity Nano是实验性对话模型。
- Arcee从后训练开放基础模型转向自主训练基础架构,以实现长期改进。
- AFM-4.5B是他们最初的密集模型实验,由此发展出Trinity系列。
- Trinity采用afmoe架构,集成门控注意力、Muon技术及美国管控的数据管道。
- 训练过程结合分组查询注意力、门控注意力及局部/全局注意力模式。
- MoE层遵循DeepSeekMoE设计,含128个路由专家,每个令牌激活8个。
- 训练使用Muon和TorchTitan框架(bf16精度),分三个阶段共10万亿令牌课程。
- Trinity Large是4200亿参数模型,每个令牌激活130亿参数。
- Arcee呼吁社区测试Trinity模型并提供反馈,以指导未来发展方向。