Hasty Briefsbeta

双语

Insights into Claude Opus 4.5 from Pokémon

4 months ago

#AI Cognition
#LLMs
#Pokémon

Claude Opus 4.5等大语言模型在玩《宝可梦》时展现出改进的视觉和空间感知能力，但在注意力和认知偏差方面仍存在缺陷
Claude的表现高度依赖笔记记录和上下文窗口使用，虽能模拟记忆功能，但仍无法达到人类水平的回忆能力
尽管有所改进，Claude仍会陷入循环操作，表现出长期规划能力薄弱，常因目标固着而忽略明显解决方案
与人类玩家对比突显了Claude缺乏探索行为，过度依赖先验知识而非游戏内实验的局限性
GPT-5.1和Gemini模型在《宝可梦》游戏中进步更快，表明算力优化和原始智能对性能都有贡献
研究者将Claude的缺陷比作顺行性遗忘症——若不持续记录笔记，其无法形成新记忆的特性会阻碍进展
该讨论强调了LLM在视觉、记忆和规划等认知层面的挑战，同时指出未来改进的可能性