Hasty Briefsbeta

双语

Proof or Bluff? Evaluating LLMs on 2025 USA Math Olympiad

a year ago

#LLMs
#USAMO
#Mathematical Reasoning

当前针对大型语言模型（如MathArena）的基准测试仅关注数值答案，却忽视了严谨的推理和证明生成能力。
一项新评估显示，最先进的推理模型在2025年美国数学奥林匹克（USAMO）试题上表现糟糕，平均正确率不足5%。
通过对推理过程的详细分析，研究者识别出常见错误模式及模型训练策略产生的不良伪影。
该研究得出结论：现有大型语言模型无法满足严谨数学推理需求，突显了提升模型推理与证明生成能力的迫切性。