GraphEval：利用知识图谱提升大型语言模型幻觉检测与修正的新框架

Posted on 2024-07-15 in CS.AI • 11 words • 1 minute read

Last updated on 2024-07-16

摘要

本文介绍了一种名为GraphEval的新型知识图谱（KG）基于的大型语言模型（LLM）幻觉评估框架。该框架旨在解决当前LLM应用中评估模型响应和检测与提供知识不一致的问题，即幻觉问题。现有的评估指标在提供可解释决策、系统性检查响应中的所有信息方面存在不足，且计算成本高。GraphEval通过识别KG中易产生幻觉的具体三元组，提供了比以往方法更深入的幻觉发生位置的洞察。此外，结合最先进的自然语言推理（NLI）模型，GraphEval在多个幻觉基准测试中提高了平衡准确性。最后，本文还探讨了利用KG结构进行幻觉修正的方法GraphCorrect，并证明大多数幻觉可以得到纠正。

原理

GraphEval的核心原理是利用知识图谱（KG）结构来表示信息，从而提高幻觉检测的可解释性和系统性。具体来说，GraphEval通过两个阶段来工作：首先，从LLM的输出中构建一个KG；然后，遍历KG中的每个三元组，检查其与提供上下文的一致性。如果任何三元组被识别为与上下文不一致，则整个输出被视为包含幻觉。这种方法不仅提供了幻觉发生的具体位置，还通过与NLI模型的结合，提高了检测的准确性。此外，GraphEval的设计使其计算成本相对较低，因为它只需要一次LLM调用，并且不需要输入通常较大的上下文文档。

流程

GraphEval的工作流程包括两个主要步骤：首先，从LLM的输出中提取实体和关系，构建一个知识图谱（KG）。其次，对KG中的每个三元组进行一致性检查，使用NLI模型来判断每个三元组是否与提供的上下文一致。具体流程如下：

KG构建：从LLM的输出中提取实体和关系，构建一个结构化的知识图谱。
一致性检查：对KG中的每个三元组，使用NLI模型检查其与上下文的一致性。如果任何三元组被识别为不一致，则标记整个输出为包含幻觉。

例如，在一个实际的基准测试中，LLM的输出首先被转换为一个KG，然后每个三元组被送入NLI模型进行一致性检查。任何被标记为不一致的三元组都会被返回，以提供幻觉发生的具体位置。

应用

GraphEval的应用前景广泛，特别是在需要高度确定性响应的应用中，如医疗诊断。该框架不仅提高了幻觉检测的准确性和可解释性，还通过GraphCorrect方法提供了幻觉修正的能力。未来，GraphEval可以扩展到开放域的幻觉检测，通过利用代理来检索相关的外部信息作为基础信息进行检查。此外，随着知识图谱构建方法的改进，GraphEval的性能有望进一步提高。