Insights into Claude Opus 4.5 from Pokémon
4 months ago
- #AI Cognition
- #LLMs
- #Pokémon
- Claude Opus 4.5等大语言模型在玩《宝可梦》时展现出改进的视觉和空间感知能力,但在注意力和认知偏差方面仍存在缺陷
- Claude的表现高度依赖笔记记录和上下文窗口使用,虽能模拟记忆功能,但仍无法达到人类水平的回忆能力
- 尽管有所改进,Claude仍会陷入循环操作,表现出长期规划能力薄弱,常因目标固着而忽略明显解决方案
- 与人类玩家对比突显了Claude缺乏探索行为,过度依赖先验知识而非游戏内实验的局限性
- GPT-5.1和Gemini模型在《宝可梦》游戏中进步更快,表明算力优化和原始智能对性能都有贡献
- 研究者将Claude的缺陷比作顺行性遗忘症——若不持续记录笔记,其无法形成新记忆的特性会阻碍进展
- 该讨论强调了LLM在视觉、记忆和规划等认知层面的挑战,同时指出未来改进的可能性