革命性突破:在线尺度变换技术引领头部视频生成新纪元

Learning Online Scale Transformation for Talking Head Video Generation

摘要

本文探讨了一键式头部视频生成的任务,使用一个人的源图像和可能来自另一个人的驱动视频来生成视频。生成的视频中的人物执行驱动视频提供的动作。一键式头部视频生成在现实世界中有广泛的应用,包括电影制作、摄影和虚拟化身。尽管近年来头部视频生成取得了快速进展,但源图像和驱动图像之间的尺度差异仍然是一个挑战。现有方法试图在驱动视频中找到与源图像最匹配的帧,但这种不精确的对齐可能导致次优结果。为此,本文引入了一个尺度变换模块,该模块可以自动调整驱动图像的尺度以适应源图像的尺度,通过使用源图像和驱动帧检测到的关键点中维护的尺度差异信息。此外,为了在生成过程中保持对面部尺度信息的感知,本文将尺度信息从尺度变换模块学习到生成过程的每一层,以产生最终结果,实现精确的尺度。本文的方法可以在没有任何锚帧的情况下,在两个图像之间进行精确的运动转移,这是通过提出的在线尺度变换面部重演网络的贡献实现的。大量实验表明,本文提出的方法可以根据源面部自动调整驱动面部的尺度,并在跨身份面部重演中生成高质量的面部,具有精确的尺度。

原理

本文提出的方法通过引入一个尺度变换模块来解决源图像和驱动图像之间的尺度差异问题。该模块利用源图像和驱动帧的关键点信息来预测一组基准点,然后通过网格生成器生成一个尺度变形图,用于将驱动图像变形以匹配源图像的尺度。此外,为了在生成过程中保持面部尺度信息的感知,本文将学习到的尺度信息嵌入到生成过程的每一层中。具体来说,尺度变换模块通过检测到的关键点来捕捉面部的尺度差异,并通过计算关键点与质心之间的距离向量来提取尺度信息。这些信息被编码成一个潜在的尺度代码,用于预测基准点并调整驱动面部的尺度。通过这种方式,本文的方法可以在生成过程中自动调整驱动面部的尺度,并生成具有精确尺度的结果。

流程

本文的方法包括两个主要步骤:尺度变换和尺度嵌入。在尺度变换步骤中,尺度变换模块利用源图像和驱动帧的关键点信息来预测一组基准点,并通过网格生成器生成一个尺度变形图,用于将驱动图像变形以匹配源图像的尺度。在尺度嵌入步骤中,学习到的尺度信息被嵌入到生成过程的每一层中,以保持面部尺度信息的感知。具体来说,生成过程包括一个编码器-解码器结构,其中潜在的尺度代码被添加到每一层的特征图中,以防止尺度信息的退化。通过这种方式,本文的方法可以在生成过程中自动调整驱动面部的尺度,并生成具有精确尺度的结果。

应用

本文提出的方法在头部视频生成领域具有广泛的应用前景。由于其能够自动调整驱动面部的尺度以匹配源面部的尺度,该方法可以应用于电影制作、摄影和虚拟化身等领域,生成高质量的头部视频。此外,该方法还可以用于跨身份面部重演,为虚拟现实和增强现实等应用提供技术支持。随着技术的进一步发展和优化,本文的方法有望在更多领域得到应用,推动头部视频生成技术的发展。