Hasty Briefsbeta

双语

AutoHarness: Improving LLM agents by automatically synthesizing a code harness

2 months ago

#GameAI
#LLM
#Automation

大语言模型代理在外部环境中常会执行被禁止的操作，从而导致任务失败
目前通常需要人工编写'约束装置'来防止这类大语言模型错误
Gemini-2.5-Flash能自动生成代码约束装置来阻止非法操作
在145个TextArena游戏中，生成的约束装置成功阻止了所有非法操作
配备定制约束装置的小模型可以超越Gemini-2.5-Pro和GPT-5.2-High等大模型
用代码生成完整策略的方案无需在运行时依赖大语言模型决策
这种代码策略方案更具成本效益，且能获得更高的平均奖励