GraphEval:利用知识图谱提升大型语言模型幻觉检测与修正的新框架

GraphEval: A Knowledge-Graph Based LLM Hallucination Evaluation Framework

摘要

本文介绍了一种名为GraphEval的新型知识图谱(KG)基于的大型语言模型(LLM)幻觉评估框架。该框架旨在解决当前LLM应用中评估模型响应和检测与提供知识不一致的问题,即幻觉问题。现有的评估指标在提供可解释决策、系统性检查响应中的所有信息方面存在不足,且计算成本高。GraphEval通过识别KG中易产生幻觉的具体三元组,提供了比以往方法更深入的幻觉发生位置的洞察。此外,结合最先进的自然语言推理(NLI)模型,GraphEval在多个幻觉基准测试中提高了平衡准确性。最后,本文还探讨了利用KG结构进行幻觉修正的方法GraphCorrect,并证明大多数幻觉可以得到纠正。

原理

GraphEval的核心原理是利用知识图谱(KG)结构来表示信息,从而提高幻觉检测的可解释性和系统性。具体来说,GraphEval通过两个阶段来工作:首先,从LLM的输出中构建一个KG;然后,遍历KG中的每个三元组,检查其与提供上下文的一致性。如果任何三元组被识别为与上下文不一致,则整个输出被视为包含幻觉。这种方法不仅提供了幻觉发生的具体位置,还通过与NLI模型的结合,提高了检测的准确性。此外,GraphEval的设计使其计算成本相对较低,因为它只需要一次LLM调用,并且不需要输入通常较大的上下文文档。

流程

GraphEval的工作流程包括两个主要步骤:首先,从LLM的输出中提取实体和关系,构建一个知识图谱(KG)。其次,对KG中的每个三元组进行一致性检查,使用NLI模型来判断每个三元组是否与提供的上下文一致。具体流程如下:

  1. KG构建:从LLM的输出中提取实体和关系,构建一个结构化的知识图谱。
  2. 一致性检查:对KG中的每个三元组,使用NLI模型检查其与上下文的一致性。如果任何三元组被识别为不一致,则标记整个输出为包含幻觉。

例如,在一个实际的基准测试中,LLM的输出首先被转换为一个KG,然后每个三元组被送入NLI模型进行一致性检查。任何被标记为不一致的三元组都会被返回,以提供幻觉发生的具体位置。

应用

GraphEval的应用前景广泛,特别是在需要高度确定性响应的应用中,如医疗诊断。该框架不仅提高了幻觉检测的准确性和可解释性,还通过GraphCorrect方法提供了幻觉修正的能力。未来,GraphEval可以扩展到开放域的幻觉检测,通过利用代理来检索相关的外部信息作为基础信息进行检查。此外,随着知识图谱构建方法的改进,GraphEval的性能有望进一步提高。