From 0% to 36% on Day 1 of ARC-AGI-3
2 months ago
- #AI
- #Symbolica
- #ARC-AGI-3
- Symbolica公司的Agentica SDK在ARC-AGI-3测试中获得36.08%的通过率,在182个可玩关卡中完成了113关
- 其成本更低(1,005美元 vs 8,900美元)却显著超越思维链基线模型(Opus 4.6 Max: 0.2%,GPT 5.4 High: 0.3%)
- 该SDK在25款可用游戏中通关7款,代码已开源至GitHub平台
- Agentica SDK采用沙盒环境设计,支持包括解决ARC谜题在内的持续性任务
- 研究人员发现游戏cn04关卡的人类基线分数存在数据异常