DRAK:解锁大型语言模型在生物分子领域的深层次知识洞察

DRAK: Unlocking Molecular Insights with Domain-Specific Retrieval-Augmented Knowledge in LLMs

摘要

本文介绍了一种名为DRAK(Domain-specific Retrieval-Augmented Knowledge)的新型框架,旨在增强大型语言模型(LLMs)在特定领域,特别是生物分子领域的推理能力。DRAK通过知识感知的提示和黄金标签诱导推理,有效地弥合了LLMs在处理特定领域知识时的不足,特别是在理解和生成复杂分子数据方面。该框架在Mol-Instructions数据集上的六个分子任务中表现出色,证明了其在特定领域知识密集型任务中的应用潜力。

原理

DRAK框架的核心在于其非参数知识注入机制,通过结合知识图谱(KGs)和知识感知提示,增强LLMs对特定领域知识的理解和生成能力。具体来说,DRAK利用知识图谱中的结构化知识,通过句子中心知识注入(DRAK-S)和知识图谱驱动知识注入(DRAK-K)两种策略,优化提示的格式和内容,从而提高LLMs在分子结构识别和属性预测等任务中的准确性和效率。

流程

DRAK的工作流程包括两个主要部分:首先,通过检索增强技术,从知识图谱中检索与测试样本文本相似度高的知识,增强LLMs的一致性和鲁棒性。其次,利用黄金标签诱导推理方法,从训练集中提取最相似的示例及其黄金标签,作为LLMs生成响应的背景信息。例如,在分子生成任务中,DRAK通过检索相关分子结构知识,结合黄金标签数据,指导LLMs生成准确的分子结构描述。

应用

DRAK框架的应用前景广泛,特别是在生物分子科学领域,如药物发现和分子研究。通过提供一个可扩展和适应性强的框架,DRAK不仅能够提升LLMs在分子任务中的表现,还能为专家提供有价值的洞察,推动知识密集型任务的发展。此外,DRAK的通用性也预示着其在其他具有独特语法结构的领域,如材料科学和化学,的应用潜力。