Hasty Briefsbeta

双语

Trinity large: An open 400B sparse MoE model

4 months ago

#AI
#Machine Learning
#MoE

Arcee推出Trinity Mini，这是一款在美国端到端训练的紧凑型MoE模型，提供开放权重、强大推理能力，并为开发者提供完全控制权。
Trinity Large是一个4000亿参数的稀疏MoE模型，每个token激活130亿参数，采用256个专家网络，每个token激活4个专家。
Trinity-Large发布三个版本：Preview（轻量后训练即支持对话）、Base（最佳预训练检查点）、TrueBase（未包含指令数据的早期检查点）。
Trinity-Large-Base在数学、编程、科学推理和知识吸收等基准测试中表现优于同类型开源基础模型。
该模型在2048块NVIDIA B300 GPU上完成预训练仅耗时33天，创下同规模模型训练速度纪录。
训练数据集包含DatologyAI精选的17万亿token，其中合成数据超8万亿token，覆盖网页、代码、数学、推理和多语言领域。
Trinity-Large-Preview在创意写作、故事叙述、角色扮演、聊天场景和实时语音辅助方面表现优异，预览期间可通过OpenRouter免费使用。
Trinity-Large-TrueBase提供纯净预训练检查点（不含指令数据），是研究高质量预训练的理想选择。
整个项目耗资2000万美元，仅为前沿实验室典型成本的零头。
Trinity Large原生支持512k上下文长度，预览版API运行于128k上下文并采用8位量化技术。