I got the highest score on ARC-AGI again swapping Python for English
8 months ago
- #AI
- #Machine Learning
- #ARC-AGI
- ARC-AGI是一个用于抽象模式识别的基准测试,突显了人类与AI表现之间的差距。
- 作者通过使用带有英文指令的进化测试时间计算,在ARC v1上取得了79.6%的新高分,在ARC v2上达到29.4%的成绩。
- 该方法涉及通过进化循环生成和优化自然语言指令,取代了Python函数。
- ARC-AGI v2任务更为复杂,需要多步推理,但人类仍能以高准确率解决。
- 当前的大型语言模型在‘死亡推理区’表现不佳,其逻辑在不同领域间存在不一致的失效情况。
- 作者提出强化学习(RL)可以帮助模型发展出一致且可迁移的推理能力。
- 根据François Chollet的定义,AGI需要在训练数据之外高效获取技能,这一目标目前尚未被大型语言模型实现。