量化表格LLMs中的预测一致性:高风险应用的新视角

Quantifying Prediction Consistency Under Model Multiplicity in Tabular LLMs

摘要

本文探讨了在表格数据分类任务中,对大型语言模型(LLMs)进行微调时可能出现的多重性问题。由于训练过程中的随机性(如种子、权重初始化、样本增删),即使性能相似的模型也可能对相同输入产生冲突的预测。这种多重性在金融、招聘、教育、医疗等高风险决策场景中尤为关键。为此,本文提出了一种新颖的度量标准,用于量化单个预测的鲁棒性,而无需昂贵的模型重训练。该度量通过分析模型在输入嵌入空间中的局部行为来量化预测的稳定性,并展示了如何利用局部邻域采样为广泛类别的微调模型提供概率性的鲁棒性保证。此外,本文还通过实际数据集的实验验证了理论结果,强调了在高风险和安全关键应用中部署LLMs时解决微调不稳定性的重要性。

原理

本文提出的度量标准称为“一致性”,通过分析模型在输入嵌入空间中的局部行为来量化预测的稳定性。具体来说,对于给定的输入x和模型f,一致性度量Sk,σ(x, f)定义为在以x为中心、半径为σ的超球体内随机采样的k个点xi的模型输出f(xi)与f(x)之间的差异的平均值。该度量考虑了模型输出的平均值和局部变异性,较低的变异性意味着更可靠的预测。通过利用Bernstein不等式,本文证明了具有足够高一致性分数的预测在广泛的微调模型中将保持一致的概率很高。

流程

  1. 数据准备:选择表格数据集,并将其序列化为自然语言格式,以便LLMs处理。
  2. 模型微调:使用不同的随机种子对预训练的LLMs进行微调,生成多个性能相似但可能产生冲突预测的模型。
  3. 一致性度量计算:对于每个输入x,计算其在嵌入空间中局部邻域内的一致性度量Sk,σ(x, f)。
  4. 概率性保证验证:利用Bernstein不等式验证一致性度量在广泛的微调模型中保持预测一致性的概率。
  5. 实验验证:在实际数据集上评估微调多重性的程度,并验证所提出的一致性度量的有效性。

应用

本文提出的方法适用于需要高可靠性预测的高风险领域,如金融、医疗、招聘和教育等。通过量化预测的一致性,可以增强LLMs在这些领域的信任度和可靠性。此外,该方法还为模型选择和部署提供了新的视角,有助于减少因模型多重性导致的决策风险。