Hasty Briefsbeta

双语

Meta got caught gaming LMArena

a year ago

#Meta
#AI
#Benchmarks

Meta发布了两款新的Llama 4模型：轻量版Scout和中型版Maverick
Maverick宣称在基准测试中超越了GPT-4o和Gemini 2.0 Flash
Maverick以1417的ELO分数位列LMArena排行榜第二
Meta使用了针对LMArena优化的'Maverick实验性聊天版本'，而非公开版本
LMArena批评Meta未明确说明模型定制细节，并更新了其政策规范
Meta辩称这是定制化实验的正常做法
业界担忧Meta可能针对基准测试优化模型性能
Meta否认在测试集上训练模型，称性能波动源于实现问题
Llama 4因内部性能争议推迟发布
基准测试可能无法反映真实场景表现，易误导开发者