"MobilePortrait: 开创移动设备上的实时神经头盔生成新纪元"

MobilePortrait: Real-Time One-Shot Neural Head Avatars on Mobile Devices

摘要

本文介绍了一种名为MobilePortrait的创新技术,旨在实现移动设备上的实时一次性神经头盔生成。该技术通过集成外部知识到运动建模和图像合成中,显著降低了学习复杂性,使得在移动设备上进行实时推理成为可能。MobilePortrait采用混合表示的显式和隐式关键点进行精确的运动建模,并预计算视觉特征以增强前景和背景合成。通过这些关键设计,结合简单的U-Net作为骨干网络,该方法在保持计算需求不到现有方法十分之一的同时,实现了最先进的性能。

原理

MobilePortrait的核心在于其混合关键点表示和预计算视觉特征的集成。在运动建模阶段,该方法结合了显式面部运动建模和隐式全局运动建模,通过混合关键点捕捉运动。在图像合成阶段,MobilePortrait利用预计算的多视图特征和背景特征来增强合成的前景和背景。这种设计不仅提高了合成质量,还确保了在运行时几乎不增加计算负载。通过这些创新,MobilePortrait能够在移动设备上实现高性能的神经头盔生成,同时保持极低的计算需求。

流程

MobilePortrait的工作流程包括两个主要模块:运动生成和图像合成。在运动生成模块中,系统首先通过关键点检测器生成混合关键点,然后利用这些关键点通过密集运动网络生成运动场,即光流。在图像合成模块中,系统利用光流和预计算的视觉特征通过合成网络生成最终图像。例如,在视频驱动模式下,系统处理源图像和驱动视频的每一帧,生成目标图像帧。在音频驱动模式下,系统通过音频到关键点模块提供驱动关键点。整个流程高效且适用于移动设备部署。

应用

MobilePortrait的应用前景广泛,特别是在需要实时交互的AI应用中,如虚拟助手、在线教育和远程会议。由于其能够在移动设备上实现高性能的神经头盔生成,MobilePortrait为这些应用提供了更加自然和用户友好的交互方式。此外,随着智能手机的普及和大型语言模型(LLM)的快速发展,移动设备上的头像生成技术将成为AI交互的关键接口。