Science Board: Evaluating Agents in Realistic Scientific Workflows
a year ago
- #Scientific Workflows
- #Autonomous Agents
- #Artificial Intelligence
- 大语言模型(LLMs)正突破自然语言处理范畴,助力跨学科研究发展
- 基于LLM的智能体(特别是计算机操作型)正通过操作系统交互实现科研工作流自动化
- ScienceBoard平台提出两大创新:为自主智能体构建的多领域仿真环境,以及包含169项真实科研任务的基准测试集
- 该基准涵盖生物化学、天文学、地理信息学等领域,经实证检验具备现实适用性
- 评估显示当前智能体(如GPT-4o、Claude 3.7)在复杂工作流中成功率仅15%
- 研究揭示了未来科研探索智能体的设计原则与现存局限
- 项目开源了代码库、仿真环境及基准测试集以促进后续发展