探索视觉动态预测的新前沿:DisFormer模型的解耦表示学习

Learning Disentangled Representation in Object-Centric Models for Visual Dynamics Prediction via Transformers

摘要

本文介绍了一种在对象中心模型中学习解耦表示以提高视觉动态预测准确性的方法。该研究由印度IIT Delhi的研究团队领导,提出了一种新的架构DisFormer,通过使用变换器在视频中无监督地发现对象掩码,并学习密集的对象中心表示,从而预测未来的视觉动态。实验表明,该方法不仅能够发现语义上有意义的块,还能在动态预测的准确性上超越现有最先进(SOTA)的对象中心模型,特别是在未见过的属性组合(OOD)设置中表现出色。

原理

DisFormer的核心构建块是“块”的概念,其中多个块共同构成一个对象。每个块被表示为给定数量的可学习概念向量的线性组合,这些向量在训练过程中迭代地细化。该模型通过在对象掩码上进行注意力操作,以类似于发现槽的方式无监督地发现块,从而学习密集的对象中心表示。通过变换器对发现的块进行自注意力操作,预测下一个状态,从而发现视觉动态。

流程

DisFormer的工作流程包括四个主要部分:掩码提取器、块提取器、动态预测器和解码器。首先,使用SAM(Segment Anything Model)和SAVi(Slot Attention for Video)初始化点,以无监督方式发现对象掩码。然后,通过简单的CNN编码器从对象掩码中获取对象表示。一旦发现对象潜在表示,每个对象潜在表示都会被一组块关注,这些块通过迭代细化学习解耦表示,作为可学习概念向量的线性组合。这些块随后通过自注意力模块耦合,学习对象感知表示,然后传递给变换器以预测未来动态。解码器是空间广播解码器的扩展,每个块用于解码结果特征图的特定维度。

应用

DisFormer的关键内容在视觉动态预测领域具有广泛的应用前景。该模型不仅能够提高预测准确性,还能在未见过的属性组合设置中表现出色,这对于需要高度泛化能力的应用尤为重要。此外,该模型能够发现解耦的对象属性,如颜色、大小和位置,这对于理解和分析复杂场景中的对象行为具有重要意义。