探索3D蛋白质结构在药物目标亲和力预测中的应用:GraphPrint框架的先进性与前景

GraphPrint: Extracting Features from 3D Protein Structure for Drug Target Affinity Prediction

摘要

本文由乔治亚理工学院的Amritpal Singh撰写,介绍了一种名为GraphPrint的新框架,用于从3D蛋白质结构中提取特征,以预测药物与目标的亲和力。传统的药物目标亲和力预测方法主要依赖于蛋白质的氨基酸序列特征,而忽略了其3D结构对结合亲和力的影响。GraphPrint框架通过生成蛋白质3D结构的图表示,并结合药物图表示和传统特征,共同学习药物目标亲和力。该模型在KIBA数据集上实现了0.1378的均方误差和0.8929的一致性指数,优于仅使用传统蛋白质特征的方法。此外,消融研究表明,基于3D蛋白质结构的特征提供了与传统手工特征互补的信息。

原理

GraphPrint框架的核心在于利用图神经网络(Graph Neural Networks, GNN)来学习基于3D蛋白质结构的特征。首先,使用Alphafold生成蛋白质的3D结构,然后将每个氨基酸残基定义为一个节点,并使用残基的质心坐标来表示氨基酸。每个节点的特征还包括氨基酸编码、分子重量、极性、溶解性和pKa值等。对于药物,通过将SMILES字符串转换为分子图表示,其中原子作为节点,键作为边。节点嵌入使用原子类型、邻近原子数、邻近氢原子数(显式和隐式)、隐式价和分子芳香性的独热编码。此外,还提取了传统的手工设计特征,如氨基酸组成(AAC)、联合三联指纹和准序列指纹,以增强图表示。

流程

GraphPrint的工作流程包括以下几个步骤:

  1. 蛋白质3D结构生成:使用Alphafold生成蛋白质的3D结构。
  2. 图表示生成:将蛋白质的3D结构转换为图表示,其中每个氨基酸残基作为一个节点,节点特征包括质心坐标和氨基酸属性。
  3. 药物图表示生成:将药物的SMILES字符串转换为分子图表示,其中原子作为节点,键作为边。
  4. 特征提取:提取传统的手工设计特征,如AAC、联合三联指纹和准序列指纹,以及药物的Morgan和Daylight指纹。
  5. 模型训练:使用多分支神经网络架构,包括图卷积网络和1D卷积块,学习蛋白质和药物的嵌入,并通过全连接层生成最终的亲和力分数。

应用

GraphPrint框架的应用前景广泛,特别是在药物发现领域。通过准确预测药物与目标的亲和力,可以加速药物候选物的筛选过程,降低药物生产成本,并提高药物的疗效。随着3D蛋白质结构数据库的不断扩大和3D蛋白质结构预测技术的进步,GraphPrint框架有望在未来的药物发现和多模态学习中发挥更大的作用。