探索MedPix 2.0:构建多模态生物医学数据集的新里程碑
摘要
本文介绍了一种名为MedPix 2.0的全面多模态生物医学数据集,旨在支持高级人工智能应用,特别是在医疗领域的应用。由于隐私问题,高质量医疗数据集的缺乏一直是开发人工智能应用的主要障碍。MedPix 2.0数据集通过半自动管道提取视觉和文本数据,并通过手动校正过程去除噪声样本,构建了一个MongoDB数据库。此外,还开发了一个图形用户界面(GUI),以便高效地导航MongoDB实例并获取原始数据,用于训练和/或微调多模态大型语言模型(MLLM)。论文还提出了一种基于CLIP的模型,该模型在MedPix 2.0上训练,用于扫描分类任务。
原理
MedPix 2.0的工作原理基于从MedPix®数据集中提取和结构化数据的过程。首先,通过半自动管道下载和清理图像数据,去除噪声样本。然后,使用Selenium和Beautiful Soup自动抓取相关的文本数据。这些数据被存储为两种类型的JSON文档:描述文档和病例-主题文档。这些文档被用于构建MongoDB数据库,并通过一个用户友好的GUI进行查询和数据提取。此外,基于CLIP的模型通过学习图像和文本描述之间的关系,实现了在零样本上下文中的高性能分类。
流程
MedPix 2.0的工作流程包括以下几个关键步骤:
- 数据提取:从MedPix®数据集中下载CT和MRI图像,并通过手动校正去除噪声样本。
 - 文本抓取:使用自动化工具抓取与图像相关的文本数据。
 - 数据结构化:将抓取的文本数据存储为两种类型的JSON文档,并构建MongoDB数据库。
 - GUI开发:开发一个用户友好的GUI,用于查询和下载结构化数据。
 - 模型训练:使用提取的数据训练基于CLIP的模型,用于图像分类任务。
 
应用
MedPix 2.0数据集的应用前景广泛,包括但不限于:
- 信息提取系统:用于临床报告的自动分析。
 - 图像分析:用于医学图像的自动化分析。
 - 生成式AI模型:用于临床报告的生成,作为医疗决策支持系统的一部分。
 - 知识图谱:通过构建知识图谱,可以进一步用于诊断和研究目的。
 
