Hasty Briefsbeta

双语

The Llama 4 Herd

a year ago
  • #Artificial Intelligence
  • #Open Source
  • #Multimodal Models
  • Meta宣布推出Llama 4 Scout和Llama 4 Maverick,这是首批原生多模态开源权重模型,具有前所未有的上下文长度支持,并采用混合专家(MoE)架构构建。
  • Llama 4 Scout是170亿活跃参数模型,配备16个专家模块,可单卡H100 GPU部署;Llama 4 Maverick同为170亿活跃参数,但集成128个专家模块,支持单台H100主机运行。
  • 教师模型Llama 4 Behemoth在STEM专项基准测试中超越GPT-4.5、Claude Sonnet 3.7和Gemini 2.0 Pro,但因仍在训练中暂未发布。
  • Llama 4系列采用原生多模态设计,通过早期融合技术将文本与视觉标记无缝整合至统一模型主干。
  • Meta开发了名为MetaP的新型训练技术,可可靠设置关键模型超参数,并支持200种语言预训练,其中超100种语言的训练语料各超10亿标记。
  • Llama 4 Maverick在图文理解方面表现卓越,而Llama 4 Scout将支持上下文长度突破至1000万标记。
  • Meta在减少LLM偏见方面取得进展,Llama 4表现显著优于Llama 3,与Grok模型相当。
  • Meta将通过llama.com和Hugging Face平台开放Llama 4 Scout与Llama 4 Maverick下载,云端及数据平台版本将陆续推出。
  • Meta同步预览教师模型Llama 4 Behemoth,该模型拥有2880亿活跃参数及近2万亿总参数,为非推理类模型树立新标杆。
  • Meta在模型开发的每个层级集成安全防护措施,并开源多项保障机制以识别和防范潜在有害输入输出。