量化表格LLMs中的预测一致性:高风险应用的新视角
摘要
本文探讨了在表格数据分类任务中,对大型语言模型(LLMs)进行微调时可能出现的多重性问题。由于训练过程中的随机性(如种子、权重初始化、样本增删),即使性能相似的模型也可能对相同输入产生冲突的预测。这种多重性在金融、招聘、教育、医疗等高风险决策场景中尤为关键。为此,本文提出了一种新颖的度量标准,用于量化单个预测的鲁棒性,而无需昂贵的模型重训练。该度量通过分析模型在输入嵌入空间中的局部行为来量化预测的稳定性,并展示了如何利用局部邻域采样为广泛类别的微调模型提供概率性的鲁棒性保证。此外,本文还通过实际数据集的实验验证了理论结果,强调了在高风险和安全关键应用中部署LLMs时解决微调不稳定性的重要性。
Read more...








