New benchmark shows top LLMs struggle in real mental health care
5 months ago
- #Mental Health
- #AI in Healthcare
- #LLM Evaluation
- 介绍MindEval——一个用于评估大语言模型在心理健康支持领域临床能力的新框架
- 由Sword Health开发的MindEval具有开源特性并经过专家验证
- 该框架响应全球超过10亿人心理健康支持的需求缺口
- 现有AI评估体系在临床能力、动态交互和专家验证维度存在不足
- MindEval创新性采用患者模拟器(PLM)、临床医生模拟器(CLM)和裁判模拟器(JLM)的三角动态评估架构
- 从五大核心维度进行测评:临床准确性、伦理与专业规范、评估响应能力、治疗关系建立、AI专属沟通质量
- 验证数据显示框架在患者模拟真实性和裁判质量方面与人类专家评估具有显著相关性
- 基准测试暴露出当前AI技术的重大缺陷,平均得分低于6分制中的4分
- 模型在重症症状处理和长程对话场景表现欠佳,揭示了对齐优化和评估强化的必要性
- Sword Health开源MindEval以促进透明度,推动AI心理健康支持领域的整体进步