创新药物发现:小型语言模型在预测配体-蛋白质亲和力中的应用
摘要
本文介绍了一种使用指令微调的预训练生成小型语言模型(SLMs)准确预测配体-蛋白质相互作用(LPI)亲和力的方法,也称为药物-靶点相互作用(DTI)。通过在零样本设置中对样本外数据进行准确预测,仅使用配体的SMILES字符串和蛋白质的氨基酸序列作为模型输入。研究结果表明,该方法在准确预测一系列配体-蛋白质相互作用亲和力方面明显优于机器学习(ML)和自由能扰动(FEP+)方法,可进一步加速针对挑战性治疗靶点的药物发现活动。
原理
本文采用预训练的基础小型语言模型(SLMs)作为起点,这些模型是具有数百万参数的生成模型。这些基础模型在特定领域的数据上进行了几轮指令微调。通过在一个严格且可重复的评估框架内,在零样本设置中对样本外“测试”数据进行性能评估,证明了在样本外数据上对一系列与配体-蛋白质相互作用相关的序数亲和力值进行准确预测的能力。模型仅使用配体的SMILES字符串和目标蛋白质的氨基酸序列作为输入。研究结果表明,该方法在准确预测一系列配体-蛋白质相互作用亲和力方面明显优于机器学习(ML)和自由能扰动(FEP)方法。
流程
- 使用预训练的基础小型语言模型(SLMs)作为起点。
 - 在特定领域的数据上对这些模型进行指令微调。
 - 在零样本设置中对样本外“测试”数据进行性能评估。
 - 仅使用配体的SMILES字符串和目标蛋白质的氨基酸序列作为模型输入。
 - 评估模型在预测配体-蛋白质相互作用亲和力方面的准确性。
 
例如,模型输入可能包括配体的SMILES字符串(如N[C@H]1C[C@H]1c1ccc(NC(=O)c2ccccc2)cc1)和蛋白质的氨基酸序列(如MENQEKASIAGHMFDVVVIGGGISGLSAAKLLTEYGVSVLVLEARDRVGGRTYTIRNEHVDYVD…),模型输出则是预测的亲和力值。
应用
该方法的应用范围广泛,主要用于药物发现领域,特别是在加速针对挑战性治疗靶点的药物发现活动方面。通过准确预测配体-蛋白质相互作用的亲和力,可以帮助药物发现团队更好地设计和优先合成与目标蛋白质相互作用的分子,同时最小化与非目标蛋白质的相互作用,从而提高临床前成功的可能性。
