Hasty Briefsbeta

双语

From 0% to 36% on Day 1 of ARC-AGI-3

2 months ago
  • #AI
  • #Symbolica
  • #ARC-AGI-3
  • Symbolica公司的Agentica SDK在ARC-AGI-3测试中获得36.08%的通过率,在182个可玩关卡中完成了113关
  • 其成本更低(1,005美元 vs 8,900美元)却显著超越思维链基线模型(Opus 4.6 Max: 0.2%,GPT 5.4 High: 0.3%)
  • 该SDK在25款可用游戏中通关7款,代码已开源至GitHub平台
  • Agentica SDK采用沙盒环境设计,支持包括解决ARC谜题在内的持续性任务
  • 研究人员发现游戏cn04关卡的人类基线分数存在数据异常