FoldToken2:开创性的蛋白质结构语言学习与生成方法

FoldToken2: Learning compact, invariant and generative protein structure language

摘要

本文介绍了一种名为FoldToken2的创新方法,旨在解决蛋白质结构表示学习、对齐和生成中的长期挑战。FoldToken2通过将等变结构转换为离散令牌,同时保持原始结构的恢复能力,创造了一种紧凑且不变的语言来等效表示蛋白质结构。该方法在蛋白质结构重建任务中表现出色,相较于前代FoldToken1,在TMScore和RMSD指标上分别提升了20%和81%。FoldToken2可能是首个在单链和多链蛋白质结构量化方面表现良好的方法,预计将推动蛋白质结构表示学习、结构对齐和结构生成任务的进一步改进。

原理

FoldToken2的核心在于三个关键组件的改进:不变结构编码器、向量量化压缩器和等效结构解码器。不变结构编码器使用基于帧的GNN(BlockGAT)将等变结构编码为不变嵌入,解决了之前方法无法捕捉3D依赖性的问题。向量量化压缩器(T-SoftCVQ)将连续嵌入量化为离散令牌,形成蛋白质结构语言,这一过程通过新的温度退火和编码策略得到优化。等效结构解码器采用条件SE-(3)解码器,通过等变图消息传递生成3D坐标,每个SE-(3)层包含一个BlockGAT和一个即插即用的SE-(3)模块,通过堆叠多个SE-(3) BlockGATs,迭代地从高斯噪声中细化蛋白质结构。

流程

FoldToken2的工作流程包括编码、量化和解码三个主要步骤。首先,使用BlockGAT编码器将蛋白质结构编码为不变嵌入。接着,通过SoftCVQ量化器将这些嵌入转换为离散令牌,形成蛋白质结构语言。最后,使用SE-(3)层解码器,结合条件特征,通过等变图消息传递生成3D坐标,从而重建蛋白质结构。例如,在单链和多链蛋白质结构重建任务中,FoldToken2通过这一流程显著提高了重建性能。

应用

FoldToken2的应用前景广泛,涵盖了蛋白质结构表示学习、结构对齐和结构生成等多个领域。其在单链和多链蛋白质结构重建任务中的优异表现,预示着该方法在生物信息学、药物设计和蛋白质工程等领域的潜在应用价值。随着进一步的研究和优化,FoldToken2有望成为蛋白质结构分析和设计的重要工具。