探索SHORTCUTSBENCH:大型API基准测试的先进性与挑战

ShortcutsBench: A Large-Scale Real-world Benchmark for API-based Agents

摘要

本文介绍了一种名为SHORTCUTSBENCH的大型基准测试,用于评估基于API的代理在处理具有不同难度级别、多样任务类型和实际需求的任务时的能力。该基准测试包括来自Apple Inc.操作系统的丰富真实API、来自快捷方式的精炼用户查询、快捷方式开发者人工标注的高质量动作序列以及关于原始参数类型、枚举参数类型、前一动作输出和需要从系统或用户请求必要信息的参数的准确填充值。通过评估使用领先的开源和闭源大型语言模型(LLMs)构建的代理,发现这些代理在处理与API选择、参数填充和从系统和用户请求必要信息相关的复杂查询时存在显著局限性。这些发现强调了基于API的代理在有效满足真实和复杂用户查询方面面临的挑战。所有数据集、代码和实验结果将在GitHub上公开。

原理

SHORTCUTSBENCH通过提供丰富的真实API、具有不同难度和任务类型的查询以及高质量的人工标注动作序列,来全面评估基于API的代理。该基准测试还提供了精确的参数填充值,包括原始数据类型、枚举类型以及从前一动作输出的使用,以及评估代理在需要时从系统或用户请求必要信息的能力。通过这种方式,SHORTCUTSBENCH能够模拟真实世界中代理需要处理的各种复杂情况,从而更准确地评估代理的性能。

流程

SHORTCUTSBENCH的工作流程包括数据集的获取、构建和评估任务的设置。首先,通过搜索引擎识别流行的公共快捷方式分享站点,并从中爬取相关字段,如快捷方式名称、功能描述和iCloud链接。然后,从下载的应用程序中提取API,并进行去重处理。接下来,构建查询和动作序列,确保所有动作序列都是人工标注的。最后,通过设置不同难度级别的评估任务,包括API选择、参数值填充和从系统或用户请求必要信息的识别,来评估代理的能力。

应用

SHORTCUTSBENCH的应用前景广泛,特别是在需要处理复杂用户查询和多步骤操作的领域,如自动化工作流程、智能助手和复杂任务的自动执行。通过提供一个全面且真实的基准测试,SHORTCUTSBENCH有助于推动基于API的代理技术的发展,使其更加适应实际应用的需求。