探索肽性质预测的新前沿:Multi-Peptide模型的多模态学习方法

Multi-Peptide: Multimodality Leveraged Language-Graph Learning of Peptide Properties

摘要

本研究介绍了Multi-Peptide,一种创新的方法,结合了基于transformer的语言模型和图神经网络(GNNs)来预测肽的性质。通过将专门针对肽性质预测的PeptideBERT模型与GNN编码器结合,Multi-Peptide能够捕捉基于序列和结构的双重特征。利用对比语言-图像预训练(CLIP),该方法将两种模态的嵌入对齐到一个共享的潜在空间,从而提高了模型的预测准确性。在溶血和非粘附数据集上的评估显示,Multi-Peptide在溶血预测方面达到了最先进的86.185%的准确率。这一研究强调了多模态学习在生物信息学中的潜力,为肽基研究和应用中的准确和可靠预测铺平了道路。

原理

Multi-Peptide的核心在于结合了PeptideBERT和GNN两种模型。PeptideBERT是一个基于transformer的语言模型,专门针对肽性质预测进行微调,而GNN则用于编码肽的三维结构,捕捉局部相互作用和空间排列等结构特征。通过CLIP,这两种模态的嵌入被对齐到一个共享的潜在空间,使得模型能够更好地理解肽序列与其性质之间的关系。CLIP通过对比学习,使得模型能够区分相似和不相似的输入对,从而在潜在空间中形成有意义的表示。

流程

Multi-Peptide的工作流程包括三个主要步骤:首先,分别对PeptideBERT和GNN进行预训练,前者在序列数据上,后者在由AlphaFold生成的PDB图数据上。其次,使用CLIP将这两个预训练模型的嵌入对齐到同一个潜在空间。最后,利用更新后的PeptideBERT权重对未见过的肽序列进行推断,预测其性质。例如,对于一个新的肽序列,模型首先会生成其结构信息,然后通过GNN和PeptideBERT分别生成嵌入,再通过CLIP对齐这些嵌入,最终预测该肽的性质。

应用

Multi-Peptide的应用前景广泛,特别是在肽基药物设计和生物材料开发领域。由于其能够同时考虑肽的序列和结构信息,该模型可以用于预测肽的多种性质,如溶血性和非粘附性,这对于开发安全有效的肽基疗法至关重要。此外,该方法还可以扩展到其他生物分子的性质预测,为生物信息学和药物发现提供强大的工具。