Hasty Briefsbeta

双语

Arcee Trinity Mini: US-Trained Moe Model

6 months ago
  • #AI
  • #Open Source
  • #Machine Learning
  • Mergekit将于2025年10月31日起重新采用GNU宽松通用公共许可证v3。
  • Arcee发布Trinity Mini——在美国训练的紧凑型混合专家模型,提供开放权重与强大推理能力。
  • 中国实验室如Qwen和DeepSeek在开放权重MoE模型领域处于领先地位。
  • Arcee AI致力于通过Trinity系列提供完全在美国端到端训练的开放权重模型。
  • Trinity Nano和Mini现已发布;Trinity Large正在训练中,将于2026年1月推出。
  • Trinity Mini是经过完整后训练的推理模型,而Trinity Nano是实验性对话模型。
  • Arcee从后训练开放基础模型转向自主训练基础架构,以实现长期改进。
  • AFM-4.5B是他们最初的密集模型实验,由此发展出Trinity系列。
  • Trinity采用afmoe架构,集成门控注意力、Muon技术及美国管控的数据管道。
  • 训练过程结合分组查询注意力、门控注意力及局部/全局注意力模式。
  • MoE层遵循DeepSeekMoE设计,含128个路由专家,每个令牌激活8个。
  • 训练使用Muon和TorchTitan框架(bf16精度),分三个阶段共10万亿令牌课程。
  • Trinity Large是4200亿参数模型,每个令牌激活130亿参数。
  • Arcee呼吁社区测试Trinity模型并提供反馈,以指导未来发展方向。