Hasty Briefsbeta

双语

Reliability of LLMs as medical assistants for the general public: a randomized preregistered study - PubMed

3 months ago

#Medical Advice
#LLMs
#Human-Computer Interaction

研究探讨大语言模型作为公众医疗助手的可靠性
大语言模型在医学执照考试中准确率高，但在真人测试场景表现欠佳
使用大语言模型的参与者仅识别出34.5%的相关病症，处置建议准确率不足44.2%
用户交互问题被确认为医疗咨询场景部署大语言模型的主要挑战
标准测试指标无法预测真人测试中暴露的缺陷
建议公共医疗应用前需进行系统性真人测试