探索大型语言模型中的共形不确定性:实现严格正确性覆盖保证的新方法
摘要
本文探讨了在自然语言生成(NLG)任务中,如何对大型语言模型(LLMs)的不确定性进行量化的问题。由于LLMs的复杂性,这一直是一个挑战。研究采用了适应性强的预测方法——共形预测(CP),该方法能够将任何启发式的不确定性度量转化为严格的理论保证,通过构建预测集来实现。研究提出了一种基于采样的不确定性度量方法,利用自一致性,并通过将不确定性条件与正确性对齐来设计共形不确定性准则。实验结果表明,该方法在多个LLMs和开放式NLG数据集上,不仅在不确定性度量上超越了现有最先进的方法,而且在模型答案分布中校准预测集,实现了对正确性覆盖率的严格控制,同时预测集的平均大小较小,显示了方法的高效性。
原理
本文提出的方法通过以下步骤实现不确定性量化和共形预测:
- 不确定性度量:首先对模型生成的多个候选答案进行语义聚类,然后计算每个候选答案的不确定性分数,该分数结合了语义频率和语义一致性。
 - 非共形分数(NS)定义:对于每个校准样本,选择与参考答案语义等价且语义相似度最高的生成答案,并将其不确定性分数定义为NS。
 - 共形不确定性准则:计算所有校准数据NS的特定分位数,以形成共形不确定性阈值。
 - 预测集构建:对于每个测试样本,构建一个预测集,该集包含满足共形不确定性准则的生成答案。
 - 正确性覆盖保证:通过确保至少有一个正确答案在预测集中,实现了对测试样本正确性覆盖率的严格保证。
 
流程
- 数据准备:对每个问题,模型生成多个候选答案。
 - 语义聚类:对候选答案进行语义聚类,得到不同的语义簇。
 - 不确定性计算:计算每个候选答案的不确定性分数,考虑其语义频率和与其他语义簇的一致性。
 - 校准样本选择:从每个语义簇中选择一个代表性答案,用于后续的校准过程。
 - 共形不确定性阈值计算:基于校准样本的NS,计算共形不确定性阈值。
 - 预测集构建:对于每个测试问题,选择满足共形不确定性阈值的答案,构建预测集。
 - 结果验证:验证预测集是否包含正确答案,并计算覆盖率和预测集大小。
 
应用
本文提出的方法适用于需要高度可靠性的开放式NLG应用,如医疗咨询、法律咨询和教育辅导等。通过提供严格的不确定性量化和正确性覆盖保证,该方法有助于提高LLMs在关键领域的应用信任度。未来,该方法可以扩展到其他NLG任务,如文档摘要和对话系统,进一步验证其通用性和有效性。
