突破语言模型代理的推理瓶颈：一种创新的推理时搜索算法

Posted on 2024-07-01 in CS.AI • 9 words • 1 minute read

Last updated on 2024-07-05

摘要

本文介绍了一种用于语言模型代理（LM Agents）的推理时搜索算法，旨在解决语言模型在多步骤推理、规划和利用环境反馈方面的局限性。该算法通过在交互式网络环境中进行显式的探索和多步骤规划，提高了代理在现实网络任务中的成功率。在VisualWebArena基准测试中，应用此搜索算法的GPT-4o代理相对于无搜索的基线代理，成功率提高了39.7%，达到26.4%的最新成功率。在WebArena中，搜索算法也显著提升了代理的性能，成功率达到19.2%。

原理

该搜索算法采用了一种最佳优先树搜索方法，该方法在实际环境空间内操作，并与现有最先进的代理技术互补。算法的核心在于利用语言模型代理提出候选搜索树分支，并通过环境反馈进行指导。搜索过程中，代理从当前状态开始，通过迭代扩展状态节点，利用价值函数评估每个状态的预期奖励，从而选择最有希望的轨迹进行执行。该方法通过显式的探索和多步骤规划，有效地减少了任务解决过程中的不确定性。

流程

搜索算法的工作流程包括初始化、状态扩展、价值评估和决策四个主要步骤。首先，代理从初始状态开始，初始化搜索前沿（frontier）和最佳状态记录。在每个迭代中，代理从前沿中选择下一个状态进行扩展，并计算该状态的价值。如果该状态的价值高于当前最佳状态，则更新最佳状态。接着，代理生成多个候选动作，执行这些动作并将其结果状态加入前沿。这一过程重复进行，直到达到搜索预算或找到目标状态。最终，代理执行找到的最佳状态对应的动作序列。

应用

该搜索算法不仅适用于网络环境，还具有广泛的潜在应用范围，包括但不限于自动化软件测试、数据分析、内容生成等领域。随着计算能力的提升和算法的进一步优化，预计该技术将在提高代理任务解决能力方面发挥重要作用，推动人工智能代理技术的实际应用和发展。