"揭秘大型语言模型的幻觉检测:RelD鉴别器的鲁棒性与应用前景"
摘要
本文针对大型语言模型(LLMs)在自然语言处理任务中普遍存在的“幻觉”问题,即生成与输入源不符的不可靠或不一致内容,提出了一种名为RelD的鲁棒鉴别器。RelD通过训练在构建的双语问答对话数据集RelQA上,该数据集包含LLMs生成的答案及一套全面的评估指标。实验结果表明,RelD能有效检测出不同LLMs生成的答案中的幻觉现象,并在分布内和分布外数据集上均表现出色。此外,本文还对幻觉的类型进行了深入分析,为未来减少幻觉现象的工作提供了有价值的见解。
原理
RelD的工作原理基于预训练语言模型(PLM),如ELECTRA,作为其骨干网络。RelD接收问题及其上下文和LLMs生成的答案作为输入,通过多类分类任务将回归任务转换为分类任务,最终输出一个分类标签来判断生成答案的可靠性。具体来说,RelD首先通过回归方法训练以拟合最终得分,但由于性能不佳,转而采用多类分类方法,并通过加权平均概率法将多类任务进一步简化为二元分类任务,以更好地符合人类的直观感知。这种方法通过最小化交叉熵损失函数来训练模型,利用softmax函数将原始输出转换为概率分布,从而提高模型在检测幻觉方面的准确性和稳定性。
流程
RelD的工作流程包括数据收集、指标选择、数据探索性分析、鉴别器构建和实验验证。首先,从多个现有数据集中收集问题,并使用不同的LLMs生成相应的答案。接着,设计一套包括LLM评估指标、人类指标、机器指标和复合指标的全面评估体系来评价这些生成答案的可靠性。然后,通过数据探索性分析,了解不同数据集在各指标上的分布情况。在鉴别器构建阶段,采用ELECTRA作为骨干模型,并通过回归到多类分类再到二元分类的转换过程来训练RelD。最后,通过一系列实验验证RelD在不同LLMs和数据集上的性能,确保其在检测幻觉方面的有效性和泛化能力。
应用
RelD的应用前景广泛,特别是在需要高度可靠性的领域,如医疗和金融,其中事实准确性至关重要。此外,RelD还可用于改进问答系统和对话系统,确保生成的内容与输入源一致,从而提升用户体验和系统的可信度。随着LLMs在更多领域的应用,RelD的幻觉检测能力将有助于推动这些模型在实际场景中的可靠部署,减少因幻觉导致的错误信息传播和经济损失。
