Large Language Model-Driven Analysis and Report Generation of Endoscopy Videos-A Pilot Study - PubMed
2 months ago
- #clinical validation
- #endoscopy
- #artificial intelligence
- 研究测试了多模态大语言模型(MLLMs)生成临床适用的食管胃十二指肠镜(EGD)报告的能力。
- 该研究比较了清洁EGD视频与带有计算机辅助检测(CAD)叠加标记的视频,以评估MLLMs的表现。
- 五位盲法内镜医师从完整性、可视化和病变特征三个维度对报告充分性进行评分。
- MLLMs在清洁视频中的报告完整性达标率为56.0%,而在CAD叠加视频中为48.0%(p = 0.500)。
- 可视化和病变特征方面,清洁视频与叠加视频无显著差异。
- 清洁视频的解剖标志物识别准确率(0.55)显著高于叠加视频(0.33)(p = 0.029)。
- Gemini 2.5 Pro模型在临床EGD报告生成中表现不足,表明需要进一步优化。
- 研究建议在临床应用MLLMs前需进行更大规模的验证。