CRAB框架：开启多模态语言模型代理的跨环境任务执行新纪元

Posted on 2024-07-01 in CS.AI • 8 words • 1 minute read

Last updated on 2024-07-05

摘要

本文介绍了一种名为CRAB的新型跨环境代理基准框架，旨在评估多模态语言模型代理在不同环境中的任务执行能力。CRAB框架通过图基的细粒度评估方法和高效的任构建机制，支持跨环境任务的评估，并能够轻松扩展到任何具有Python接口的环境。该框架支持多种设备，并开发了一个跨平台的CRAB基准-v0，包含100个任务，涉及计算机桌面和移动电话环境。实验结果显示，使用GPT-4o的单一代理在完成率上达到了35.26%的最佳表现。所有框架代码、代理代码和任务数据集均已公开发布。

原理

CRAB框架的核心在于其跨环境任务的评估能力，通过图基的细粒度评估方法，将任务分解为多个子目标，并为每个子目标分配一个判断函数以验证其完整性。这些子目标在图基评估器中被视为节点，图结构描述了子目标之间的顺序和并行关系。这种方法提供了类似于轨迹基评估的细粒度指标，同时容纳了完成任务的多个有效路径，使得评估更加适合涉及多种正确方法的任务。

流程

CRAB框架的工作流程包括初始化任务、代理观察、规划与指令、执行动作、更新评估器和输出指标等步骤。任务由主代理接收指令并在基准系统内初始化图基评估器。工作流程通过一个循环进行，主代理观察、规划并指示子代理在各自环境中执行动作。图基评估器监控环境中的任务状态，持续更新并输出任务完成指标。

应用

CRAB框架的应用前景广泛，特别适用于需要代理在多个平台上执行任务的场景，如网站、桌面计算机或移动电话。随着多模态语言模型的发展，CRAB框架能够支持更复杂的交互环境，为自主代理的研究和开发提供了一个标准化和可扩展的评估平台。