Reliability of LLMs as medical assistants for the general public: a randomized preregistered study - PubMed
3 months ago
- #Medical Advice
- #LLMs
- #Human-Computer Interaction
- 研究探讨大语言模型作为公众医疗助手的可靠性
- 大语言模型在医学执照考试中准确率高,但在真人测试场景表现欠佳
- 使用大语言模型的参与者仅识别出34.5%的相关病症,处置建议准确率不足44.2%
- 用户交互问题被确认为医疗咨询场景部署大语言模型的主要挑战
- 标准测试指标无法预测真人测试中暴露的缺陷
- 建议公共医疗应用前需进行系统性真人测试