探索MaskVAT:视频到音频生成的新纪元
摘要
本文介绍了一种名为MaskVAT的先进视频到音频生成模型,由Dolby Laboratories和Universitat Politècnica de Catalunya的研究团队开发。该模型通过仅利用视频的视觉特征来生成与场景相匹配的合理声音,特别强调生成的声音起始点应与视觉动作同步,以避免不自然的同步伪影。MaskVAT模型结合了高质量的全频段通用音频编解码器和序列到序列的掩码生成模型,能够在保持高音频质量的同时,实现语义匹配和时间同步性。研究结果表明,通过结合高质量编解码器和适当的预训练视听特征,MaskVAT能够在同步性方面取得高度一致的结果,同时在非编解码生成音频模型中保持竞争力。
原理
MaskVAT模型的核心在于其能够同时处理高音频质量、语义匹配和时间同步性。该模型通过以下关键技术实现其先进性:
- 全频段通用音频编解码器:利用Descript音频编解码器(DAC)将音频波形转换为低帧率的代码图(codegram),从而在保持音频质量的同时,简化生成策略的扩展性。
 - 掩码生成模型:采用Transformer架构进行掩码声学令牌建模,通过预测音频令牌序列的概率分布,实现并行处理。
 - 多模态视听特征:通过预训练的CLIP和S3D视频编码器提取视频特征,这些特征被用于驱动V2A生成过程,确保生成的音频与视频内容在语义和时间上的一致性。
 - 序列到序列模型架构:通过引入正则化损失和预训练的同步性特征,确保生成音频与输入视频在时间上的对齐。
 
流程
MaskVAT的工作流程包括以下几个关键步骤:
- 音频令牌化:使用预训练的神经音频编解码器将音频波形转换为代码图。
 - 掩码生成:通过掩码调度器确定掩码位置,应用掩码到代码图上,并使用Transformer模型预测掩码位置的令牌。
 - 视觉条件化:利用预训练的CLIP和S3D编码器从视频帧中提取特征,这些特征被用于条件化生成过程。
 - 训练与采样:在掩码令牌建模场景中,通过最小化负对数似然损失来训练模型,并在采样过程中通过分类器自由引导和多样性项来生成新的音频代码图。
 - 后采样选择:通过训练一个序列对比视听(SCAV)编码器,选择与输入视频在语义和时间上最匹配的生成音频。
 
应用
MaskVAT模型在媒体制作行业具有广泛的应用前景,特别是在加速、改进和简化音效生成方面。此外,该模型还可用于自动配音等任务,这些任务不仅需要与视觉输入同步,还需要多模态条件化。随着技术的进一步发展,MaskVAT有望在更广泛的领域内实现视听内容的自动生成和编辑。
