探索Hypothetical Minds:利用大型语言模型在多代理任务中构建自主代理的新方法

Hypothetical Minds: Scaffolding Theory of Mind for Multi-Agent Tasks with Large Language Models

摘要

本文介绍了一种名为“Hypothetical Minds”的新型自主代理模型,该模型利用大型语言模型(LLMs)来处理多代理任务中的非平稳性问题,并能够在线适应新代理。Hypothetical Minds模型采用了一种认知启发式架构,包括感知、记忆和两级抽象层次的层次规划模块。特别地,引入了“心智理论”(ToM)模块,该模块通过自然语言生成关于其他代理策略的假设,并通过强化正确预测其他代理行为的假设来评估和迭代改进这些假设。在Melting Pot基准测试中,Hypothetical Minds在竞争性、混合动机和协作性领域的表现显著优于之前的LLM代理和强化学习基线,包括双边和群体环境。此外,与LLM代理基线和消融实验的比较揭示了假设评估和细化在复杂场景中成功的重要性。

原理

Hypothetical Minds模型的核心是其ToM模块,该模块通过生成关于其他代理策略、目标和能力的假设来促进有效的协调或反策略。这些假设以自然语言形式生成,并通过评估这些假设对其他代理未来行为的预测准确性来进行迭代细化。ToM模块维护一组假设,并通过评估每个假设的预测质量来选择最佳假设。最佳假设是通过最大后验概率(MAP)估计选择的,该估计基于假设的先验概率和观测到的行为的边际概率。通过持续更新和选择基于观测信息的最佳假设,ToM模块能够有效地推断其他代理的潜在变量,并相应地调整其自身策略。

流程

Hypothetical Minds模型的工作流程包括以下几个关键步骤:

  1. 感知和记忆:代理通过文本地图/状态表示来表示自我中心的观察,并在每一步之后将其添加到记忆系统中。
  2. ToM模块:生成关于其他代理策略的假设,并通过评估这些假设的预测质量来选择最佳假设。
  3. 高层次规划:基于最佳假设和过去的记忆事件,生成高层次的计划。
  4. 子目标模块:选择一系列子目标,每个子目标是一个动作或短序列动作,代理需要执行这些动作以实现高层次计划。
  5. 动作规划:将子目标计划转换为实现该计划的行动序列。

例如,在“Running With Scissors”环境中,代理首先探索环境以找到黄色资源的位置,然后基于ToM模块的假设选择目标资源,并通过子目标模块生成具体的行动计划,如移动到特定坐标并收集资源。

应用

Hypothetical Minds模型在多代理环境中具有广泛的应用前景,特别是在需要复杂社会动态和隐蔽信息的环境中。该模型不仅在竞争性、协作性和混合动机环境中表现出色,而且能够适应不同的代理策略和环境变化。未来,该模型可以进一步扩展到更复杂的社交互动场景,如虚拟现实和实际机器人交互,以及在更广泛的领域中应用,如商业谈判、团队合作和社交游戏。