VETE:一种革命性的神经网络框架,用于编码癌症特征和预测药物反应

Variational and Explanatory Neural Networks for Encoding Cancer Profiles and Predicting Drug Responses

摘要

本文介绍了一种名为VETE(Variational and Explanatory Transcriptomics Encoder)的新型神经网络框架,旨在通过整合变分组件和可追踪的基因本体(Gene Ontology, GO)来编码癌症转录组数据,从而预测抗癌药物反应。VETE的关键创新包括一种局部可解释性引导的方法来识别本体路径,一个可视化工具来阐明药物反应的生物机制,以及应用集中式大规模超参数优化。VETE在癌症细胞系分类和药物反应预测方面展示了强大的准确性,并提供了可追踪的生物学解释,为癌症研究中AI驱动的预测与生物学意义的洞察之间架起了桥梁。

原理

VETE框架基于变分信息瓶颈原理,通过配置多种深度学习组件(称为子模型)来学习基因表达和药物分子结构的潜在嵌入。转录组子模型的神经网络结构根据基因本体设计,每个父-子关系在本体中表示为一个连接,形成一个层次模型结构,明确模拟不同尺度的生物过程并将基因表达与分子和功能相关性联系起来。药物嵌入子模型则基于多层感知器(MLP),使用药物指纹作为输入,药物分子结构嵌入作为输出。这些子模型的输出被串联起来生成潜在随机变量,从中抽取潜在实现用于下游任务,如癌症类型分类和药物反应预测。

流程

VETE的工作流程包括数据准备、模型训练和分析。首先,从癌症细胞系百科全书(CCLE)中选择最常突变的基因,并聚焦于带有基因本体(GO)术语注释的基因。然后,利用多个数据集进行模型训练和验证,包括从CCLE的依赖图(DepMap)门户提取的细胞系多组学数据和从PubChem获取的药物信息。使用SMILES(简化分子输入线条输入规范)命名法计算药物的分子指纹和描述符,以嵌入药物的分子结构。细胞系反应数据从GDSC版本2提取。最后,VETE模型通过变分信息瓶颈(VIB)框架进行训练,其中药物-细胞对嵌入被表示为潜在分布而非确定性向量,以提高模型对数据扰动和噪声的鲁棒性。

应用

VETE的应用前景广泛,特别是在精准肿瘤学领域。它能够揭示药物-细胞相互作用的新分子机制,并为个性化治疗策略提供见解。通过提供可解释的预测,VETE有助于临床决策制定和克服药物抗性的转化研究。此外,VETE的潜在应用还包括药物发现和开发,以及对癌症生物学的深入理解。