Hasty Briefsbeta

双语

Reliability of LLMs as medical assistants for the general public: a randomized preregistered study - PubMed

3 months ago
  • #Medical Advice
  • #LLMs
  • #Human-Computer Interaction
  • 研究探讨大语言模型作为公众医疗助手的可靠性
  • 大语言模型在医学执照考试中准确率高,但在真人测试场景表现欠佳
  • 使用大语言模型的参与者仅识别出34.5%的相关病症,处置建议准确率不足44.2%
  • 用户交互问题被确认为医疗咨询场景部署大语言模型的主要挑战
  • 标准测试指标无法预测真人测试中暴露的缺陷
  • 建议公共医疗应用前需进行系统性真人测试