CMU TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks
a year ago
- #AI Agents
- #Work Automation
- #Benchmarking
- TheAgentCompany被提出作为一个可扩展的基准测试平台,用于评估AI代理在现实世界专业任务中的表现。
- AI代理在一个模拟的小型软件公司环境中接受测试,执行网页浏览、编程和沟通等模拟任务。
- 研究评估了基于闭源API和开源权重语言模型(LMs)的基线代理表现。
- 最具竞争力的AI代理能自主完成24%的任务,这表明其在简单任务自动化方面具有潜力。
- 但更复杂、周期长的任务仍超出当前AI系统的能力范围。
- 该研究强调了AI产业应用对劳动力市场影响的经济政策启示。