Hasty Briefsbeta

双语

ARC-AGI 2025: A research review

10 months ago

#Artificial General Intelligence
#Machine Learning
#Program Synthesis

ARC 2025是一项用于测试'技能获取效率'的基准测试，源自François Chollet关于衡量智能的研究成果。
该竞赛要求通过从示例中推断规则并将其应用于未见过的测试网格来解决基于网格的谜题，强调跨领域泛化能力。
效率是挑战的关键组成部分，严格的计算限制旨在防止暴力破解解决方案。
解决ARC的方法包括离散程序搜索和深度学习引导的程序合成，其中大语言模型在2024年变得尤为重要。
测试时适应（TTT）对于在ARC中取得成功至关重要，它允许模型在评估过程中适应新的谜题。
2025版ARC引入了更难的题目，移除了可通过暴力破解解决的任务，并新增了测试泛化能力的新挑战。
核心知识先验（如物体性和基础物理学）是解决ARC谜题的基础。
网格数据的表示和领域特定语言（DSL）对于高效的程序搜索和解决方案生成至关重要。
集成不同方法（包括归纳法和转导法）已被证明能有效提高分数。
最新进展包括使用像O3这样的'思考'模型，它们利用上下文学习和推理来解决谜题。