探索虚拟染色技术在高吞吐量筛选中的泛化能力:一项深度研究
摘要
本文探讨了在制药行业中,高吞吐量筛选(HTS)产生的海量图像数据对虚拟染色模型训练的潜力。文章主要研究了在不同实验条件下训练的模型是否能够泛化到其他条件下的问题。研究针对三种细胞类型(肺、卵巢和乳腺)和两种表型(毒性和非毒性条件),评估了虚拟染色模型在三种常见的HTS数据分布偏移下的泛化能力:未见过的表型、未见过的细胞类型以及两者的组合。研究发现,使用非毒性条件样本训练的虚拟核和细胞质模型不仅能够泛化到毒性条件样本,而且在所有评估层面上表现优于毒性条件样本训练的模型。此外,模型对未见过的细胞类型的泛化能力因细胞类型而异,卵巢或肺细胞样本训练的模型在其他条件下表现良好,而乳腺细胞样本训练的模型泛化能力较差。总体而言,该研究为实验训练数据生成提供了有价值的策略,特别是在数据中心化的方法上,为虚拟染色模型的泛化能力提供了深入的见解。
原理
虚拟染色技术是一种多模态图像到图像翻译(I2I)问题,模型通过学习将未染色的显微镜图像转换为所需的标记图像。本文采用的数据集包含772,416对明场、细胞质、核和DNA损伤染色图像,通过评估模型在像素级、实例级和生物特征级上的泛化能力,发现非毒性条件样本训练的模型在泛化到毒性条件样本时表现更优。模型的工作原理基于深度学习技术,特别是条件生成对抗网络(cGANs)和图像到图像翻译技术,这些技术能够从大量数据中学习到图像间的复杂映射关系,从而实现高质量的图像转换。
流程
研究使用了GSK专有的772,416张图像数据集,包括明场和三种共定位的广泛使用的荧光染色:荧光素(FITC)用于细胞质,6-二甲基氨基-2-苯并吲哚(DAPI)用于核检测,和Cyanine(Cy5)用于DNA损伤。数据集涵盖三种细胞类型(卵巢、乳腺和肺)和两种表型(非毒性和毒性)。研究训练了54个模型,每个模型针对两种表型、三种细胞类型、三种染色和三种初始化进行训练。每个模型在非毒性和毒性测试集上进行推理,共完成了243次单独的推理运行。评估分为三个层次:像素级、实例级和生物特征级。具体的工作流程包括数据准备、模型训练、推理和多层次评估。
应用
该研究为虚拟染色技术在制药行业中的应用提供了新的视角,特别是在高吞吐量筛选中,模型能够泛化到未见过的表型和细胞类型,这对于药物发现和生物标志物的识别具有重要意义。未来,这项技术可以进一步扩展到更广泛的细胞类型和表型,以及应用于临床病理学中,提高诊断的准确性和效率。此外,虚拟染色技术还可以用于生物学研究,帮助科学家更好地理解细胞结构和功能。
