Hasty Briefsbeta

双语

Chemical knowledge and reasoning of large language models vs. chemist expertise

a year ago

#LLMs
#Chemistry
#Benchmarking

大语言模型（LLMs）在处理人类语言和执行超出其明确训练范围的任务方面展现出令人印象深刻的能力。
ChemBench作为一个自动化框架被提出，用于评估LLMs的化学知识和推理能力，并与人类化学家进行对比。
该研究整理了超过2700个问答对，发现领先的LLMs平均表现优于人类化学家，但在基础任务上仍存在困难且预测存在过度自信问题。
LLMs在化学应用（如预测分子性质、优化反应路径和材料生成）中展现出潜力，但关于双重用途风险（例如化学武器设计）的担忧持续存在。
LLMs在不同化学子领域的表现存在差异，在普通化学领域表现优异，但在毒性与安全或分析化学等主题上表现欠佳。
模型在分子结构推理和置信度评估方面存在局限，凸显了改进人机交互框架的必要性。
研究结果表明需要重新思考化学教育方向，鉴于LLMs的能力，应更注重批判性思维而非机械记忆。
ChemBench提供了对LLMs化学能力的细致评估，为未来提升模型安全性和实用性建立了基准体系。