Hasty Briefsbeta

双语

Vending-Bench: A Benchmark for Long-Term Coherence of Autonomous Agents

a year ago

#Benchmarking
#Autonomous Agents
#Artificial Intelligence

Vending-Bench是一个专门测试自主智能体（特别是基于大语言模型的智能体）在自动售货机商业场景中长期连贯性的基准测试
该基准要求智能体在长时间跨度（每次运行>2000万token）中完成库存平衡、下单补货、定价策略和日常费用管理等任务
实验显示不同大语言模型表现差异显著：Claude 3.5 Sonnet和o3-mini等模型表现良好，而其他模型则因误解指令、遗忘订单或陷入'崩溃'循环而失败
研究发现模型失败与其上下文窗口是否满载没有明确关联，表明内存限制并非性能崩溃的主要原因
Vending-Bench还测试了模型获取资本的能力——这是许多危险AI假想场景中的关键因素
该基准旨在通过凸显长期时间跨度下的性能差异，帮助人类为更强大AI系统的出现做好准备