"DebUnc: 通过不确定性度量提升大型语言模型在多代理辩论中的置信度"
摘要
本文介绍了一种名为DebUnc的新型多代理辩论框架,旨在通过不确定性度量来评估代理的置信水平,从而增强大型语言模型(LLM)的能力。在多代理辩论中,多个LLM通过多轮辩论讨论问题的解决方案。然而,LLM经常产生看似自信但实际上错误的响应,这可能会误导其他代理。DebUnc通过在辩论中引入不确定性度量来解决这一问题,调整LLM的注意力机制以基于置信水平调整令牌权重,并探索使用文本提示来传达置信度。评估结果显示,基于注意力的方法特别有效,并且随着不确定性度量的发展,性能将继续提高。
原理
DebUnc框架的核心在于利用不确定性度量来量化和传达LLM代理在多代理辩论中的不确定性。在每一轮辩论后,使用不确定性度量来评估每个代理的不确定性。在下一轮中,每个代理的响应和不确定性将被传达给所有其他代理。论文探索了两种传达代理不确定性的方法:(1)将不确定性直接纳入下一轮辩论的文本提示中;(2)基于代理的不确定性调整LLM对代理响应的注意力。通过这种方式,代理可以根据其他代理的置信水平来优先考虑其意见,从而提高辩论的准确性和可靠性。
流程
DebUnc的工作流程包括以下步骤:
- 在每一轮辩论中,每个代理独立生成对问题的响应,并使用不确定性度量评估其置信度。
 - 在下一轮辩论中,每个代理的响应和置信度信息被包含在其他代理的提示中。
 - 代理根据其他代理的响应和置信度信息来调整其答案。
 - 最终答案通过多数投票确定。 例如,在一个三代理的数学辩论中,每个代理使用LLM生成文本响应,并使用不确定性度量评估其置信度。响应和置信度信息在代理之间共享,使它们能够在响应不同时决定信任谁。
 
应用
DebUnc框架的应用前景广泛,特别是在需要高度可靠性和准确性的领域,如医疗保健、金融服务和教育。通过提高LLM在多代理辩论中的准确性和置信度,DebUnc可以显著提升这些领域中LLM的应用效果,减少因模型幻觉(hallucination)导致的错误信息传播。此外,随着不确定性度量的进一步发展,DebUnc的性能有望进一步提升,为更复杂的任务和应用场景提供支持。
