Hasty Briefsbeta

双语

Vending-Bench: A Benchmark for Long-Term Coherence of Autonomous Agents

a year ago
  • #Benchmarking
  • #Autonomous Agents
  • #Artificial Intelligence
  • Vending-Bench是一个专门测试自主智能体(特别是基于大语言模型的智能体)在自动售货机商业场景中长期连贯性的基准测试
  • 该基准要求智能体在长时间跨度(每次运行>2000万token)中完成库存平衡、下单补货、定价策略和日常费用管理等任务
  • 实验显示不同大语言模型表现差异显著:Claude 3.5 Sonnet和o3-mini等模型表现良好,而其他模型则因误解指令、遗忘订单或陷入'崩溃'循环而失败
  • 研究发现模型失败与其上下文窗口是否满载没有明确关联,表明内存限制并非性能崩溃的主要原因
  • Vending-Bench还测试了模型获取资本的能力——这是许多危险AI假想场景中的关键因素
  • 该基准旨在通过凸显长期时间跨度下的性能差异,帮助人类为更强大AI系统的出现做好准备