"创新视频对象分割技术:融合空间-语义特征与判别性查询"

Learning Spatial-Semantic Features for Robust Video Object Segmentation

摘要

本文提出了一种鲁棒的视频对象分割框架,该框架利用空间-语义特征和判别性对象查询来解决长期视频中由于遮挡、背景杂乱和目标部分模糊导致的身份混淆问题。具体而言,构建了一个包含语义嵌入块和空间依赖性建模块的空间-语义网络,以关联预训练的ViT特征与全局语义特征和局部空间特征,提供全面的目标表示。此外,开发了一个掩码交叉注意力模块,以在查询传播期间生成聚焦于目标对象最具判别性部分的对象查询,减轻噪声积累并确保有效的长期查询传播。实验结果表明,该方法在多个数据集上达到了新的最先进性能,证明了其有效性和泛化能力。

原理

该论文的核心在于提出了一种结合空间和语义信息的新型视频对象分割框架。工作原理如下:

  1. 空间-语义网络构建:通过语义嵌入块和空间依赖性建模块,将预训练的ViT特征与全局语义特征和局部空间特征相结合,形成一个全面的目标表示。
  2. 判别性对象查询生成:利用掩码交叉注意力模块,在查询传播过程中聚焦于目标对象的最具判别性部分,从而生成判别性对象查询,这有助于减少噪声积累并提高长期查询传播的效率。
  3. 实验验证:通过在多个基准数据集上的广泛实验,验证了该方法的有效性,特别是在处理具有复杂结构或分离部分的目标时,以及在长期视频中保持目标身份的稳定性。

流程

  1. 特征生成:输入测试帧,通过空间-语义特征生成模块生成空间-语义特征。
  2. 目标关联:利用像素级和查询级双水平目标关联模块,将生成的空间-语义特征与参考样本进行关联,生成相关特征。
  3. 掩码预测:通过解码器基于这些相关特征预测目标掩码。
  4. 查询更新:在长期视频中,通过判别性查询传播模块更新目标查询,确保目标查询在长期外观变化中保持判别性信息。

应用

该方法在自动驾驶、增强现实和交互式视频编辑等多个领域具有广泛的应用前景。特别是在需要精确分割和跟踪视频中多个相似对象的场景中,该方法能够提供更为鲁棒和准确的解决方案。