突破语言模型代理的推理瓶颈:一种创新的推理时搜索算法
摘要
本文介绍了一种用于语言模型代理(LM Agents)的推理时搜索算法,旨在解决语言模型在多步骤推理、规划和利用环境反馈方面的局限性。该算法通过在交互式网络环境中进行显式的探索和多步骤规划,提高了代理在现实网络任务中的成功率。在VisualWebArena基准测试中,应用此搜索算法的GPT-4o代理相对于无搜索的基线代理,成功率提高了39.7%,达到26.4%的最新成功率。在WebArena中,搜索算法也显著提升了代理的性能,成功率达到19.2%。
原理
该搜索算法采用了一种最佳优先树搜索方法,该方法在实际环境空间内操作,并与现有最先进的代理技术互补。算法的核心在于利用语言模型代理提出候选搜索树分支,并通过环境反馈进行指导。搜索过程中,代理从当前状态开始,通过迭代扩展状态节点,利用价值函数评估每个状态的预期奖励,从而选择最有希望的轨迹进行执行。该方法通过显式的探索和多步骤规划,有效地减少了任务解决过程中的不确定性。
流程
搜索算法的工作流程包括初始化、状态扩展、价值评估和决策四个主要步骤。首先,代理从初始状态开始,初始化搜索前沿(frontier)和最佳状态记录。在每个迭代中,代理从前沿中选择下一个状态进行扩展,并计算该状态的价值。如果该状态的价值高于当前最佳状态,则更新最佳状态。接着,代理生成多个候选动作,执行这些动作并将其结果状态加入前沿。这一过程重复进行,直到达到搜索预算或找到目标状态。最终,代理执行找到的最佳状态对应的动作序列。
应用
该搜索算法不仅适用于网络环境,还具有广泛的潜在应用范围,包括但不限于自动化软件测试、数据分析、内容生成等领域。随着计算能力的提升和算法的进一步优化,预计该技术将在提高代理任务解决能力方面发挥重要作用,推动人工智能代理技术的实际应用和发展。
