探索LICO:利用大型语言模型革新分子优化技术

LICO: Large Language Models for In-Context Molecular Optimization

摘要

本文介绍了一种名为LICO的新方法,该方法利用大型语言模型(LLMs)进行黑盒优化,特别是在分子优化领域。LICO通过扩展任意基础LLMs,配备独立的嵌入层和预测层,使其能够在分子领域进行上下文预测。该模型在PMO基准测试中表现出色,证明了其在分子优化任务中的高效性和广泛适用性。

原理

LICO的核心在于利用预训练的大型语言模型(LLMs)的强大模式匹配能力,通过添加独立的嵌入层和预测层,使其能够处理非自然语言的科学领域数据。这些嵌入层将分子及其属性映射到LLM已学习的特征空间,允许模型在该空间内进行上下文学习,而不是原始的文本空间。这种方法不仅适用于难以用自然语言描述的领域,如分子优化,还允许模型基于更多的历史观测进行条件化,从而更好地处理复杂问题。

流程

LICO的工作流程包括训练阶段和优化阶段。在训练阶段,模型通过半合成数据进行训练,这些数据包括分子固有属性和通过高斯过程生成的合成函数。在优化阶段,模型通过迭代过程生成候选分子,预测其属性,并根据预测结果选择最有潜力的分子进行实际评估。这一过程重复进行,直到达到预定的评估预算。

应用

LICO的应用前景广泛,特别是在药物发现和材料科学领域,这些领域需要高效优化分子属性。由于其通用性和高效性,LICO有望成为未来分子设计和优化任务中的重要工具。此外,该方法的原理也可以扩展到其他科学领域,进一步推动跨学科的优化研究。