AutoHarness: Improving LLM agents by automatically synthesizing a code harness
2 months ago
- #GameAI
- #LLM
- #Automation
- 大语言模型代理在外部环境中常会执行被禁止的操作,从而导致任务失败
- 目前通常需要人工编写'约束装置'来防止这类大语言模型错误
- Gemini-2.5-Flash能自动生成代码约束装置来阻止非法操作
- 在145个TextArena游戏中,生成的约束装置成功阻止了所有非法操作
- 配备定制约束装置的小模型可以超越Gemini-2.5-Pro和GPT-5.2-High等大模型
- 用代码生成完整策略的方案无需在运行时依赖大语言模型决策
- 这种代码策略方案更具成本效益,且能获得更高的平均奖励