"超越数字奖励:LLM代理在上下文双臂赌博机中的应用与挑战"

Beyond Numeric Awards: In-Context Dueling Bandits with LLM Agents

摘要

本文探讨了大型语言模型(LLM)在上下文决策中的应用,特别是在双臂赌博机(Dueling Bandits)问题中的表现。研究发现,尽管LLM如GPT-4 TURBO在短期内能有效识别并利用最佳臂,但其长期性能受限于探索阶段的过度估计偏差和利用阶段缺乏收敛标准。为解决这些问题,本文提出了一种增强型LLM算法——IF-ENHANCED LLM,该算法结合了LLM的上下文决策能力和经典Dueling Bandits算法的理论保证,以提高在决策任务中的性能稳健性。实验结果验证了IF-ENHANCED LLM在噪声和对抗性提示下的鲁棒性。

原理

IF-ENHANCED LLM算法的核心在于利用LLM的上下文决策能力,同时结合经典Dueling Bandits算法(如Interleaved Filter 2, IF2)的探索-利用结构和理论保证。算法通过两个主要阶段运行:

  1. LLM阶段:LLM根据上下文信息选择一对臂进行比较,通过一系列的匹配过程(MATCH ARMS)确定胜者,并将其与其他候选臂进行比较,直到胜者被击败或所有候选臂都被比较过。
  2. IF2阶段:如果LLM选择的臂被击败,算法切换到IF2阶段,使用IF2算法进行一轮,选择一个根据估计偏好矩阵ˆP的现任臂进行比较。

这种设计允许算法在利用LLM的探索能力的同时,确保收敛和有界的遗憾,即使在噪声或对抗性的提示下也能保持其理论保证。

流程

IF-ENHANCED LLM的工作流程包括以下步骤:

  1. 初始化:设定时间范围T和候选臂集合B。
  2. LLM阶段:LLM根据提示选择一对臂进行比较,更新候选臂集合B和现任臂bLLM。
  3. 匹配臂过程:比较LLM选择的臂与其他候选臂,更新B和bLLM。
  4. IF2阶段:如果bLLM被击败,切换到IF2算法,选择现任臂bIF2并运行IF2过程。
  5. 重复:重复LLM阶段和IF2阶段,直到B只包含最佳臂。

具体示例和详细步骤可参考附录A.1中的算法描述和图3。

应用

IF-ENHANCED LLM算法的应用前景广泛,特别是在需要复杂推理和适应性决策的领域,如信息检索、推荐系统、在线排名评估以及医疗决策支持、法律判决预测和股票运动预测等。该算法通过结合LLM的强大语言理解和推理能力与经典算法的稳健性,为处理动态和相对偏好的决策问题提供了新的解决方案。