探索大型语言模型的空间推理能力:GRASP基准测试的突破与挑战
摘要
本文介绍了一种名为GRASP的新型基准测试,用于评估大型语言模型(LLMs)在结构化网格环境中的常识空间推理(CSR)能力。GRASP包含16,000个基于网格的环境,每个环境包含五种不同的能量分布、两种障碍配置、两种代理起始位置和三种代理约束。通过比较经典算法(如随机游走和贪心搜索)与先进的LLMs(如GPT-3.5-Turbo和GPT-4o),研究发现即使是最先进的LLMs在解决这些空间推理任务时也面临挑战。GRASP的提出为未来在LLM能力方面的研究和开发奠定了基础,特别是在提高模型在复杂空间推理任务中的效率和准确性方面。
原理
GRASP通过创建一个包含16,000个不同网格实例的基准测试,直接评估LLMs在面对空间推理场景时的规划能力。每个网格实例是一个二维数组,包含空单元格、障碍物或能量单元。代理的目标是在固定步数内尽可能多地收集能量。GRASP通过直接集成文本渲染的网格环境,避免了传统基准测试中依赖文本描述或视觉元素的中间解释步骤,从而更直接地评估LLMs的CSR能力。
流程
GRASP的工作流程包括以下步骤:
- 构建网格环境:创建一个11x11的网格,每个单元格可以是空的、包含能量、障碍物或代理的起始点。
 - 定义代理约束:代理在固定步数内行动,可以选择不同的移动动作(如上下左右或对角线移动)和资源相关动作(如获取或放下能量)。
 - 评估代理性能:通过比较不同代理(包括随机游走、贪心搜索和LLMs)在不同控制设置下的表现,评估它们的空间推理能力。 例如,在一个特定的网格环境中,代理需要避开障碍物,收集能量并返回起始点。通过这种方式,GRASP能够详细评估代理在复杂空间环境中的行为和决策过程。
 
应用
GRASP的应用前景广泛,特别是在需要复杂空间推理能力的领域,如机器人导航、自动驾驶和虚拟现实。通过提高LLMs在空间推理任务中的表现,可以显著增强这些系统在实际应用中的可靠性和效率。此外,GRASP还可以作为未来研究和开发更高级空间推理模型的基础,推动人工智能在理解和操作物理世界方面的进步。
