探索具身任务规划:MFE-ETP基准引领多模态基础模型的新前沿

MFE-ETP: A Comprehensive Evaluation Benchmark for Multi-modal Foundation Models on Embodied Task Planning

摘要

本文介绍了一种名为MFE-ETP的综合评估基准,用于评估多模态基础模型(MFMs)在具身任务规划中的性能。该基准旨在深入探讨MFMs在此领域的能力和局限性,通过构建一个包含对象理解、时空感知、任务理解和具身推理四个关键能力的系统评估框架。MFE-ETP基准以其复杂的任务场景、典型的任务类型、不同难度的任务实例和丰富的测试案例类型为特点,涵盖从多模态问题回答到具身任务推理的广泛范围。此外,本文还提供了一个简单易用的自动评估平台,用于在提出的基准上对多个MFMs进行自动化测试。通过使用该基准和评估平台,研究者评估了几个最先进的MFMs,并发现它们在性能上显著落后于人类水平。MFE-ETP是一个高质量、大规模且具有挑战性的基准,与现实世界任务相关。

原理

MFE-ETP基准的核心在于其评估框架,该框架围绕四个关键能力构建:对象理解(OU)、时空感知(STP)、任务理解(TU)和具身推理(ER)。每个能力维度进一步细分为多个子方面,形成一个全面的评估体系。对象理解涉及识别对象的类型和属性,包括物理和功能属性。时空感知则评估模型对空间属性的判断能力,如距离、几何形状、方向和相对位置,以及对任务进展时间顺序的感知。任务理解要求模型识别与任务相关的对象,理解操作知识、步骤顺序和任务目标完成条件。具身推理则是在前三个能力的基础上,进一步整合和推理感知到的对象信息、时空信息和任务知识,以完成任务规划。

流程

MFE-ETP基准的工作流程包括数据收集、基准结构设计和自动评估方法的开发。数据收集阶段,选择了典型的家庭环境任务来构建基准,具体从BEHAVIOR-100和VirtualHome平台收集原始数据。基准结构设计阶段,基于评估框架设计了六种不同的任务指令形式,包括开放词汇问题回答、单选问题回答、多选问题回答、排序问题回答、是/否问题回答和规划问题回答。自动评估方法阶段,开发了一个自动评估平台,该平台包括数据准备、模型部署和评估指标计算,使用GPT-3.5进行自动评估,同时保留所有模型输出结果以供人工评估。

应用

MFE-ETP基准的应用前景广泛,尤其在机器人学、自动化家居和虚拟助手等领域。通过评估和改进MFMs在具身任务规划中的性能,可以推动这些技术在实际应用中的有效性和可靠性。此外,该基准和评估平台的设计也为未来在具身人工智能领域的研究和开发提供了宝贵的资源和工具。