探索未来:BEVWorld——自动驾驶的多模态世界模型

BEVWorld: A Multimodal World Model for Autonomous Driving via Unified BEV Latent Space

摘要

本文介绍了一种名为BEVWorld的创新方法,用于自动驾驶中的多模态世界模型构建。该方法通过将多模态传感器输入编码为一个统一的鸟瞰图(BEV)潜在空间,来模拟环境并预测未来场景。BEVWorld包括一个多模态标记器和一个潜在BEV序列扩散模型,能够有效地处理未标记的多模态传感器数据,并在自动驾驶任务中展示出其生成未来场景的能力,从而为感知和运动预测等下游任务提供支持。

原理

BEVWorld的核心在于将多模态传感器数据(如图像和激光雷达)转换为一个统一的BEV表示,并通过一个扩散过程预测未来的BEV序列。多模态标记器网络负责将原始传感器数据压缩成一个统一的BEV潜在空间,这一过程通过将视觉信息转换为3D空间并与激光雷达的几何信息对齐来实现。潜在BEV序列扩散网络则利用这一潜在空间来预测未来的图像和点云帧,使用基于扩散的方法和时空变换器来处理序列噪声的BEV潜在变量,从而生成清晰的未来BEV预测。

流程

BEVWorld的工作流程包括两个主要步骤:首先,多模态标记器将图像和激光雷达观测编码为BEV标记,然后通过基于射线的渲染策略解码为重建的观测。接着,潜在BEV序列扩散模型在给定动作标记作为条件的情况下,预测未来的BEV标记。整个过程通过单次推理避免了自回归方法的累积误差,实现了高效的未来场景预测。

应用

BEVWorld的应用前景广泛,特别是在自动驾驶领域。它不仅能够作为模拟器生成多样化的驾驶场景,还能作为预训练模型提高下游任务(如3D检测和运动预测)的性能。此外,BEVWorld的潜在扩散模型还能为规划任务提供有用的未来BEV特征,进一步增强自动驾驶系统的决策能力。