Hasty Briefsbeta

双语

Trinity large: An open 400B sparse MoE model

4 months ago
  • #AI
  • #Machine Learning
  • #MoE
  • Arcee推出Trinity Mini,这是一款在美国端到端训练的紧凑型MoE模型,提供开放权重、强大推理能力,并为开发者提供完全控制权。
  • Trinity Large是一个4000亿参数的稀疏MoE模型,每个token激活130亿参数,采用256个专家网络,每个token激活4个专家。
  • Trinity-Large发布三个版本:Preview(轻量后训练即支持对话)、Base(最佳预训练检查点)、TrueBase(未包含指令数据的早期检查点)。
  • Trinity-Large-Base在数学、编程、科学推理和知识吸收等基准测试中表现优于同类型开源基础模型。
  • 该模型在2048块NVIDIA B300 GPU上完成预训练仅耗时33天,创下同规模模型训练速度纪录。
  • 训练数据集包含DatologyAI精选的17万亿token,其中合成数据超8万亿token,覆盖网页、代码、数学、推理和多语言领域。
  • Trinity-Large-Preview在创意写作、故事叙述、角色扮演、聊天场景和实时语音辅助方面表现优异,预览期间可通过OpenRouter免费使用。
  • Trinity-Large-TrueBase提供纯净预训练检查点(不含指令数据),是研究高质量预训练的理想选择。
  • 整个项目耗资2000万美元,仅为前沿实验室典型成本的零头。
  • Trinity Large原生支持512k上下文长度,预览版API运行于128k上下文并采用8位量化技术。