Hasty Briefsbeta

双语

CMU TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks

a year ago
  • #AI Agents
  • #Work Automation
  • #Benchmarking
  • TheAgentCompany被提出作为一个可扩展的基准测试平台,用于评估AI代理在现实世界专业任务中的表现。
  • AI代理在一个模拟的小型软件公司环境中接受测试,执行网页浏览、编程和沟通等模拟任务。
  • 研究评估了基于闭源API和开源权重语言模型(LMs)的基线代理表现。
  • 最具竞争力的AI代理能自主完成24%的任务,这表明其在简单任务自动化方面具有潜力。
  • 但更复杂、周期长的任务仍超出当前AI系统的能力范围。
  • 该研究强调了AI产业应用对劳动力市场影响的经济政策启示。