CRAB框架:开启多模态语言模型代理的跨环境任务执行新纪元
摘要
本文介绍了一种名为CRAB的新型跨环境代理基准框架,旨在评估多模态语言模型代理在不同环境中的任务执行能力。CRAB框架通过图基的细粒度评估方法和高效的任构建机制,支持跨环境任务的评估,并能够轻松扩展到任何具有Python接口的环境。该框架支持多种设备,并开发了一个跨平台的CRAB基准-v0,包含100个任务,涉及计算机桌面和移动电话环境。实验结果显示,使用GPT-4o的单一代理在完成率上达到了35.26%的最佳表现。所有框架代码、代理代码和任务数据集均已公开发布。
原理
CRAB框架的核心在于其跨环境任务的评估能力,通过图基的细粒度评估方法,将任务分解为多个子目标,并为每个子目标分配一个判断函数以验证其完整性。这些子目标在图基评估器中被视为节点,图结构描述了子目标之间的顺序和并行关系。这种方法提供了类似于轨迹基评估的细粒度指标,同时容纳了完成任务的多个有效路径,使得评估更加适合涉及多种正确方法的任务。
流程
CRAB框架的工作流程包括初始化任务、代理观察、规划与指令、执行动作、更新评估器和输出指标等步骤。任务由主代理接收指令并在基准系统内初始化图基评估器。工作流程通过一个循环进行,主代理观察、规划并指示子代理在各自环境中执行动作。图基评估器监控环境中的任务状态,持续更新并输出任务完成指标。
应用
CRAB框架的应用前景广泛,特别适用于需要代理在多个平台上执行任务的场景,如网站、桌面计算机或移动电话。随着多模态语言模型的发展,CRAB框架能够支持更复杂的交互环境,为自主代理的研究和开发提供了一个标准化和可扩展的评估平台。
