Hasty Briefsbeta

双语

AutoHarness: Improving LLM agents by automatically synthesizing a code harness

2 months ago
  • #GameAI
  • #LLM
  • #Automation
  • 大语言模型代理在外部环境中常会执行被禁止的操作,从而导致任务失败
  • 目前通常需要人工编写'约束装置'来防止这类大语言模型错误
  • Gemini-2.5-Flash能自动生成代码约束装置来阻止非法操作
  • 在145个TextArena游戏中,生成的约束装置成功阻止了所有非法操作
  • 配备定制约束装置的小模型可以超越Gemini-2.5-Pro和GPT-5.2-High等大模型
  • 用代码生成完整策略的方案无需在运行时依赖大语言模型决策
  • 这种代码策略方案更具成本效益,且能获得更高的平均奖励