Hasty Briefsbeta

双语

Science Board: Evaluating Agents in Realistic Scientific Workflows

a year ago

#Scientific Workflows
#Autonomous Agents
#Artificial Intelligence

大语言模型（LLMs）正突破自然语言处理范畴，助力跨学科研究发展
基于LLM的智能体（特别是计算机操作型）正通过操作系统交互实现科研工作流自动化
ScienceBoard平台提出两大创新：为自主智能体构建的多领域仿真环境，以及包含169项真实科研任务的基准测试集
该基准涵盖生物化学、天文学、地理信息学等领域，经实证检验具备现实适用性
评估显示当前智能体（如GPT-4o、Claude 3.7）在复杂工作流中成功率仅15%
研究揭示了未来科研探索智能体的设计原则与现存局限
项目开源了代码库、仿真环境及基准测试集以促进后续发展