探索OmniJARVIS:引领开放世界智能代理的新纪元

OmniJARVIS: Unified Vision-Language-Action Tokenization Enables Open-World Instruction Following Agents

摘要

本文介绍了一种名为OmniJARVIS的新型视觉-语言-动作(VLA)模型,该模型专门设计用于在Minecraft等开放世界环境中遵循指令的智能代理。OmniJARVIS通过统一的多模态交互数据令牌化,实现了强大的推理和高效的决策制定能力。该模型通过自监督学习方法学习行为编码器,生成离散的行为轨迹令牌,并通过模仿学习策略解码器条件化这些令牌。OmniJARVIS能够处理包括任务指令、记忆、思维、观察、文本响应和行为轨迹在内的长期多模态交互,并在Minecraft的开放世界中展示了卓越的性能。

原理

OmniJARVIS的核心创新在于其统一的多模态交互数据令牌化方法。该模型通过自监督学习方法训练行为编码器,将行为轨迹转换为离散令牌,并将这些令牌添加到预训练的多模态语言模型(MLM)的词汇表中。通过这种方式,OmniJARVIS能够将视觉(观察)、语言(指令、记忆、思维)和动作(行为轨迹)统一为自回归序列预测模型。这种统一令牌化的方法使得模型能够进行推理(通过产生思维链)、规划、回答问题并通过产生行为令牌来执行动作。

流程

OmniJARVIS的工作流程包括以下几个关键步骤:

  1. 行为令牌化:通过自监督学习方法训练行为编码器,将行为轨迹转换为离散令牌。
  2. 自回归建模:将多模态交互数据打包成统一令牌序列,并使用自回归变换器模型进行建模。
  3. 推理与动作生成:模型接收任务指令、初始记忆和观察,迭代进行思维链推理并产生行为令牌,通过策略解码器执行动作。 例如,在Minecraft中,OmniJARVIS接收到“获取钻石镐”的指令后,会首先进行推理,规划出获取钻石的步骤,然后通过产生相应的行为令牌来执行这些步骤。

应用

OmniJARVIS的应用前景广泛,特别适用于需要复杂推理和高效决策的开放世界环境,如Minecraft、虚拟现实交互和其他需要多模态交互的智能代理系统。该模型的统一令牌化方法为未来的智能代理技术提供了新的研究方向,尤其是在行为令牌化、语言能力增强和统一交互建模方面。