Getting an LLM to Play Text Adventures
9 months ago
- #Text-Adventure
- #LLM
- #AI-Gaming
- 研究调查了大型语言模型在文本冒险游戏中的表现,结果喜忧参半。
- ChatGPT 3.5和GPT-4o-mini在文本冒险游戏中展现出有限的能力。
- 大型语言模型在文本冒险游戏的状态转换上表现不佳,错误率高达40%。
- 尽管采用提示工程进行引导,模型仍会出现上下文污染等错误。
- 模型常陷入循环逻辑或过度关注无关细节。
- 典型问题包括无法正确将金表放置在地板上或错误使用指令。
- 有时会忽略提示线索,重新陷入之前的执念行为。
- 不同模型表现各异,Claude 3.5 Haiku展现出一定潜力但仍存缺陷。
- 成本是主要障碍,完成简单文本冒险游戏就需耗费1美元。
- 未来工作包括建立不同语言模型在文本冒险领域的性能基准。