Proof or Bluff? Evaluating LLMs on 2025 USA Math Olympiad
a year ago
- #LLMs
- #USAMO
- #Mathematical Reasoning
- 当前针对大型语言模型(如MathArena)的基准测试仅关注数值答案,却忽视了严谨的推理和证明生成能力。
- 一项新评估显示,最先进的推理模型在2025年美国数学奥林匹克(USAMO)试题上表现糟糕,平均正确率不足5%。
- 通过对推理过程的详细分析,研究者识别出常见错误模式及模型训练策略产生的不良伪影。
- 该研究得出结论:现有大型语言模型无法满足严谨数学推理需求,突显了提升模型推理与证明生成能力的迫切性。