Meta got caught gaming LMArena
a year ago
- #Meta
- #AI
- #Benchmarks
- Meta发布了两款新的Llama 4模型:轻量版Scout和中型版Maverick
- Maverick宣称在基准测试中超越了GPT-4o和Gemini 2.0 Flash
- Maverick以1417的ELO分数位列LMArena排行榜第二
- Meta使用了针对LMArena优化的'Maverick实验性聊天版本',而非公开版本
- LMArena批评Meta未明确说明模型定制细节,并更新了其政策规范
- Meta辩称这是定制化实验的正常做法
- 业界担忧Meta可能针对基准测试优化模型性能
- Meta否认在测试集上训练模型,称性能波动源于实现问题
- Llama 4因内部性能争议推迟发布
- 基准测试可能无法反映真实场景表现,易误导开发者