探索SHORTCUTSBENCH:大型API基准测试的先进性与挑战
摘要
本文介绍了一种名为SHORTCUTSBENCH的大型基准测试,用于评估基于API的代理在处理具有不同难度级别、多样任务类型和实际需求的任务时的能力。该基准测试包括来自Apple Inc.操作系统的丰富真实API、来自快捷方式的精炼用户查询、快捷方式开发者人工标注的高质量动作序列以及关于原始参数类型、枚举参数类型、前一动作输出和需要从系统或用户请求必要信息的参数的准确填充值。通过评估使用领先的开源和闭源大型语言模型(LLMs)构建的代理,发现这些代理在处理与API选择、参数填充和从系统和用户请求必要信息相关的复杂查询时存在显著局限性。这些发现强调了基于API的代理在有效满足真实和复杂用户查询方面面临的挑战。所有数据集、代码和实验结果将在GitHub上公开。
Read more...








