探索LLM在真实世界工具使用中的挑战与前景:GTA基准测试解析

GTA: A Benchmark for General Tool Agents

摘要

本文介绍了一项名为GTA(General Tool Agents)的基准测试,旨在评估大型语言模型(LLM)在实际工具使用场景中的能力。GTA通过真实用户查询、实际部署的工具和多模态输入来模拟真实世界的问题解决环境。论文提出了229个真实世界任务和可执行的工具链来评估主流LLM,发现即使是先进的模型如GPT-4也难以完成一半以上的任务,这揭示了当前LLM在实际工具使用能力上的瓶颈,并为未来发展通用工具代理提供了方向。

原理

GTA基准测试的核心在于评估LLM如何利用外部工具解决复杂任务。它通过以下三个主要方面来实现:

  1. 真实用户查询:这些查询由人类设计,具有简单的实际目标但隐含工具使用,要求LLM推理出合适的工具并规划解决方案步骤。
  2. 实际部署的工具:提供一个评估平台,配备感知、操作、逻辑和创造力等多种类别的工具,以评估代理的实际任务执行性能。
  3. 真实多模态输入:使用真实的图像文件作为查询上下文,如空间场景、网页截图、表格、代码片段和打印/手写材料,以更紧密地模拟真实世界场景。

通过这些设计,GTA能够全面评估LLM在实际工具使用中的推理和规划能力,以及它们在多模态环境下的适应性。

流程

GTA的工作流程包括以下几个关键步骤:

  1. 查询设计:人工设计包含隐含工具使用的真实世界查询。
  2. 工具链构建:为每个查询构建详细的可执行工具链,包括每个工具使用的步骤和最终答案。
  3. 多模态输入处理:将真实的图像文件作为查询的上下文,要求LLM基于这些上下文和用户查询解决问题。
  4. 评估执行:LLM实际调用工具并解决问题,每个步骤依赖前一步的输出,最终与真实工具链和结果进行比较。

例如,一个查询可能要求LLM识别图像中的某个对象,然后使用搜索引擎查找相关信息,最后计算结果。整个过程中,LLM需要正确调用和组合多个工具来达到最终答案。

应用

GTA基准测试的应用前景广泛,主要体现在以下几个方面:

  1. LLM能力评估:为研究人员和开发者提供一个标准化的工具,用于评估和比较不同LLM在实际工具使用场景中的性能。
  2. 模型改进:通过揭示LLM在工具使用中的瓶颈,指导模型设计和训练方法的改进,以提高其在真实世界任务中的实用性。
  3. 通用代理开发:为开发能够有效利用多种工具解决复杂问题的通用代理提供实证基础和指导。

随着LLM技术的进步和应用的深化,GTA基准测试将成为推动这一领域发展的重要工具。