Hasty Briefsbeta

双语

I got the highest score on ARC-AGI again swapping Python for English

8 months ago

#AI
#Machine Learning
#ARC-AGI

ARC-AGI是一个用于抽象模式识别的基准测试，突显了人类与AI表现之间的差距。
作者通过使用带有英文指令的进化测试时间计算，在ARC v1上取得了79.6%的新高分，在ARC v2上达到29.4%的成绩。
该方法涉及通过进化循环生成和优化自然语言指令，取代了Python函数。
ARC-AGI v2任务更为复杂，需要多步推理，但人类仍能以高准确率解决。
当前的大型语言模型在‘死亡推理区’表现不佳，其逻辑在不同领域间存在不一致的失效情况。
作者提出强化学习（RL）可以帮助模型发展出一致且可迁移的推理能力。
根据François Chollet的定义，AGI需要在训练数据之外高效获取技能，这一目标目前尚未被大型语言模型实现。