Merlin: a computed tomography vision-language foundation model and dataset - PubMed
2 months ago
- #radiology
- #artificial intelligence
- #medical imaging
- Merlin是一个专为腹部CT扫描自动分析设计的3D视觉语言模型(VLM)
- 该模型通过学习容积CT扫描、电子健康记录和放射学报告进行训练,无需额外人工标注
- 训练数据集包含15,331次CT扫描的600多万张高质量图像、180万条诊断代码和600万条放射学报告文本
- 在6类任务共752个具体任务上进行了评估,涵盖诊断、预后和医疗质量相关任务
- 展现出优异的跨机构和跨解剖部位泛化能力,性能超越2D视觉语言模型和CT基础模型
- 项目开源了训练好的模型、代码库以及25,494对腹部CT扫描与放射学报告数据集
- 潜在应用场景包括辅助放射科医生、生物标志物发现和疾病风险分层