The Llama 4 Herd

a year ago

Meta宣布推出Llama 4 Scout和Llama 4 Maverick，这是首批原生多模态开源权重模型，具有前所未有的上下文长度支持，并采用混合专家（MoE）架构构建。
Llama 4 Scout是170亿活跃参数模型，配备16个专家模块，可单卡H100 GPU部署；Llama 4 Maverick同为170亿活跃参数，但集成128个专家模块，支持单台H100主机运行。
教师模型Llama 4 Behemoth在STEM专项基准测试中超越GPT-4.5、Claude Sonnet 3.7和Gemini 2.0 Pro，但因仍在训练中暂未发布。
Llama 4系列采用原生多模态设计，通过早期融合技术将文本与视觉标记无缝整合至统一模型主干。
Meta开发了名为MetaP的新型训练技术，可可靠设置关键模型超参数，并支持200种语言预训练，其中超100种语言的训练语料各超10亿标记。
Llama 4 Maverick在图文理解方面表现卓越，而Llama 4 Scout将支持上下文长度突破至1000万标记。
Meta在减少LLM偏见方面取得进展，Llama 4表现显著优于Llama 3，与Grok模型相当。
Meta将通过llama.com和Hugging Face平台开放Llama 4 Scout与Llama 4 Maverick下载，云端及数据平台版本将陆续推出。
Meta同步预览教师模型Llama 4 Behemoth，该模型拥有2880亿活跃参数及近2万亿总参数，为非推理类模型树立新标杆。
Meta在模型开发的每个层级集成安全防护措施，并开源多项保障机制以识别和防范潜在有害输入输出。

Hasty Briefsbeta