Hasty Briefsbeta

双语

The Secret Meeting Where Mathematicians Struggled to Outsmart AI

a year ago

#Mathematics
#Large Language Models
#Artificial Intelligence

五月中旬，加州伯克利秘密举行了一场数学精英集会，30位著名数学家对名为o4-mini的推理聊天机器人进行了测试。
这款由OpenAI推理大语言模型驱动的聊天机器人，展现出解决世界级数学难题的能力，令在场数学家们震惊。
o4-mini与谷歌Gemini 2.5 Flash等同类模型更为轻量化，通过专业数据集训练并辅以高强度人类反馈强化。
Epoch AI用300道未公开数学题测试o4-mini，传统大模型解题率不足2%，而o4-mini正确率约达20%。
主办方特别设置第四档100道超高难度题目，数学家们需签署保密协议防止数据污染。
为期两天的会议中，数学家们竞相设计能难倒o4-mini的题目，每道未解难题悬赏7500美元。
o4-mini当场解决数论领域一道开放性问题，不仅展示高阶推理能力，还流露出顽皮态度。
数学家惊叹AI的进步，称其如同「强力协作者」，解题速度远超人类专家。
有人担忧过度依赖o4-mini的结论，因其自信表现可能形成「威慑性证明」的学术霸权。
会议探讨了数学家未来角色的转变——或转向提出问题，通过与AI互动探索新真理。