Hasty Briefsbeta

双语

Meta got caught gaming LMArena

a year ago
  • #Meta
  • #AI
  • #Benchmarks
  • Meta发布了两款新的Llama 4模型:轻量版Scout和中型版Maverick
  • Maverick宣称在基准测试中超越了GPT-4o和Gemini 2.0 Flash
  • Maverick以1417的ELO分数位列LMArena排行榜第二
  • Meta使用了针对LMArena优化的'Maverick实验性聊天版本',而非公开版本
  • LMArena批评Meta未明确说明模型定制细节,并更新了其政策规范
  • Meta辩称这是定制化实验的正常做法
  • 业界担忧Meta可能针对基准测试优化模型性能
  • Meta否认在测试集上训练模型,称性能波动源于实现问题
  • Llama 4因内部性能争议推迟发布
  • 基准测试可能无法反映真实场景表现,易误导开发者