Hasty Briefsbeta

双语

CMU TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks

a year ago

#AI Agents
#Work Automation
#Benchmarking

TheAgentCompany被提出作为一个可扩展的基准测试平台，用于评估AI代理在现实世界专业任务中的表现。
AI代理在一个模拟的小型软件公司环境中接受测试，执行网页浏览、编程和沟通等模拟任务。
研究评估了基于闭源API和开源权重语言模型(LMs)的基线代理表现。
最具竞争力的AI代理能自主完成24%的任务，这表明其在简单任务自动化方面具有潜力。
但更复杂、周期长的任务仍超出当前AI系统的能力范围。
该研究强调了AI产业应用对劳动力市场影响的经济政策启示。