"揭示大型语言模型的内在逻辑:理性提取与解释的新视角"
摘要
本文探讨了大型语言模型(LLMs)如何通过提取的理性(rationales)来解释其生成内容,这些理性是从输入文本中提取的标记,反映了LLMs的决策过程。研究通过两种方法提取理性:基于归因的方法(使用注意力或梯度定位重要标记)和基于提示的方法(通过提示引导LLMs提取理性)。实验结果显示,基于提示的理性与人工标注的理性更为一致,即使在模型性能较差的情况下也能合理地与人类推理对齐。此外,研究发现基于提示的方法的忠实度限制可能与其预测崩溃有关。通过在相应数据集上微调这些模型,基于提示和归因的方法都显示出忠实度的提高。本研究为LLM理性的更严格和公平评估提供了见解,特别是对于基于提示的方法。
原理
本文通过两种主要方法来提取大型语言模型(LLMs)的理性:基于归因的方法和基于提示的方法。基于归因的方法利用模型内部的注意力权重或梯度来定位输入文本中对模型预测最重要的标记。而基于提示的方法则是通过向LLMs提供明确的提示,引导模型解释其预测,从而提取理性。这两种方法的核心在于理解模型如何处理和解释输入信息,以及这些解释如何与人类的理解和标注对齐。
流程
研究首先定义了理性的概念,并介绍了两种提取理性的方法。然后,通过在e-SNLI和MedicalBios数据集上进行广泛的实验,评估了不同方法提取的理性与人工标注理性的对齐程度和模型的忠实度。实验包括使用不同的提示策略和归因技术,以及对模型进行微调以提高其性能和解释的忠实度。具体的工作流程包括:1) 定义理性的提取方法;2) 设计实验来评估理性的对齐和忠实度;3) 分析实验结果,特别是微调后的模型表现;4) 讨论实验结果的意义和未来研究方向。
应用
本研究的应用前景广泛,特别是在需要高度可靠性和解释性的领域,如医疗、法律和金融。通过提高LLMs的解释能力和忠实度,可以增强这些模型在关键决策过程中的信任度和可用性。此外,研究结果还可以推动开发更先进的解释方法,以进一步缩小模型解释与人类理解之间的差距。
