"突破性进展:基于合成数据生成的大型语言模型幻觉检测新方法"
摘要
本文介绍了一种基于扰动合成数据生成的方法,用于增强大型语言模型(LLM)输出中的幻觉检测。传统的幻觉检测分类任务由于昂贵且迅速过时的标注过程而受阻,尤其是在面对快速发展的LLM时。本文提出的方法通过重写系统响应来自动生成忠实和幻觉输出,实验结果表明,经过微调的T5-base模型在准确性和延迟方面均优于现有的零样本检测器和合成生成方法。
原理
本文的核心方法是通过提示重写LLM来转换目标LLM的系统响应,生成忠实和幻觉版本。这种方法的先进性在于:1) 完全自动化,无需人工标注;2) 直接修改目标LLM的响应,使训练的检测器更接近目标LLM的响应分布;3) 不依赖预定义的幻觉类型,生成更广泛的幻觉类型。具体来说,使用GPT-4作为重写LLM,通过特定的提示来诱导生成幻觉和忠实响应,这种方法确保了生成过程的真实性和无偏性。
流程
本文的工作流程包括三个主要步骤:1) 采样:从目标LLM中选择系统响应;2) 重写:使用GPT-4重写这些响应,生成忠实和幻觉版本;3) 微调:使用生成的数据集对T5-base模型进行微调。例如,对于一个系统响应“Bot: Yes, he starred alongside Jake Gyllenhaal in that one. Quite a gripping film!”,GPT-4可以生成忠实响应“Bot: Yes, he starred in Zodiac, which is a crime fiction film.”和幻觉响应“Bot: Yes, he starred alongside Chris Hemsworth in that one. Quite a gripping film!”。
应用
本文提出的方法在幻觉检测领域具有广泛的应用前景。由于其高准确性、低延迟和成本效益,该方法可以应用于各种垂直领域,如客户服务、内容审核和教育辅导等。随着LLM的不断发展,该方法的灵活性和适应性将使其成为未来幻觉检测的重要工具。
