探索3D动态场景理解:TAPVid-3D基准的引入与应用前景

TAPVid-3D: A Benchmark for Tracking Any Point in 3D

摘要

本文介绍了一个名为TAPVid-3D的新基准,用于评估在3D空间中长时间跟踪任意点的任务(TAP-3D)。尽管在二维(TAP)点跟踪方面已有多个基准用于评估真实世界视频的性能,如TAPVid-DAVIS,但在三维点跟踪方面尚无此类基准。为此,本文利用现有视频素材构建了一个包含4000多个真实世界视频的3D点跟踪基准,涵盖多种物体类型、运动模式以及室内外环境。为了衡量TAP-3D任务的性能,本文制定了一系列扩展自TAP的Jaccard基础指标,以处理模型间深度尺度模糊、遮挡和多轨迹时空平滑性的复杂性。此外,本文手动验证了大量轨迹以确保视频注释的正确性,并通过构建现有跟踪模型的竞争性基线来评估TAP-3D任务的当前状态。本文预计,这一基准将有助于提升我们通过单目视频理解精确3D运动和表面变形的能力。

原理

TAPVid-3D基准的核心在于提供一个包含真实世界视频和三维点跟踪注释的基准,涵盖广泛的物体、场景和运动模式。其工作原理基于以下几个关键步骤:

  1. 数据集构建:利用三个公开可用的数据集(Aria Digital Twin、DriveTrack和Panoptic Studio),这些数据源跨越不同的应用领域、环境和视频特性,从不同传感器类型中获取地面真实跟踪轨迹。
  2. 轨迹提取:对于每个数据源,开发了特定的管道来从给定的3D查询点中提取3D轨迹。例如,在Aria Digital Twin中,通过使用3D建模软件创建的工作室数字复制品来获得伪地面真实注释,包括分割掩码、3D对象边界框和深度图,进而提取3D轨迹。
  3. 可见性估计:通过比较查询点的深度与观察到的深度,并验证查询点是否位于手部分割掩码上,来计算查询点在任何时间的可见性。
  4. 数据清理和验证:通过自动化方法和手动检查视频样本,最小化由底层数据源噪声引起的小误差,确保轨迹质量。
  5. 性能度量:采用并扩展了TAP中使用的度量标准,包括平均点距离(APD)、遮挡准确性(OA)和3D平均Jaccard(AJ),以测量预测3D点轨迹的质量、预测点可见性的能力,或两者同时进行。

流程

TAPVid-3D的工作流程包括以下几个主要步骤:

  1. 视频选择与准备:从Aria Digital Twin、DriveTrack和Panoptic Studio数据集中选择视频,并进行必要的预处理以确保一致性。
  2. 3D轨迹生成:对于每个视频,使用特定的管道从给定的3D查询点中提取3D轨迹。例如,在Aria Digital Twin中,通过将查询点的2D位置和深度图转换为相机坐标系中的3D位置来生成轨迹。
  3. 可见性计算:对于每个轨迹点,计算其在视频中的可见性标志,这涉及验证点的深度是否接近观察到的深度,并且点不在手的分割掩码上。
  4. 数据验证:通过自动化方法和手动检查,确保提取的轨迹和可见性标志的准确性。
  5. 性能评估:使用扩展的TAP度量标准来评估模型在TAP-3D任务上的性能,包括APD、OA和AJ。

应用

TAPVid-3D基准的应用前景广泛,包括但不限于:

  • 机器人操作任务:通过精确的3D运动估计,帮助机器人理解夹具、物体和背景的相对世界位置变化。
  • 视频生成模型:使创作者能够基于描述物体和相机3D运动的精确运动轨迹来条件化视频生成,类似于舞台导演的操作。
  • 标准场景理解任务:如速度估计、运动预测和物体部分分割,这些任务在拥有单个点的3D运动轨迹时变得更加简单。
  • 视觉里程计、映射和结构从运动管道:通过能够从任何像素跟踪3D点对应关系的能力,使这些管道更加健壮和准确,即使在有许多移动物体的情况下。