创新动态排版技术：KineTy模型引领文本动画新潮流

Posted on 2024-07-15 in CS.AI • 10 words • 1 minute read

Last updated on 2024-07-16

摘要

本文介绍了一种基于视频扩散模型生成用户偏好的动态排版（Kinetic Typography）的方法。通过借鉴最新的视频扩散模型进展，本文实现了视觉上令人愉悦的文本外观。首先，构建了一个包含约60万视频的动态排版数据集，该数据集由专业动态图形设计师设计的584个模板组合而成，涉及字母位置、字形和大小（如飞行、故障、色差、反射效果等）的变化。其次，提出了一种用于动态排版的视频扩散模型，该模型需要满足美学外观、运动效果和可读字母三个要求。本文通过引入静态和动态字幕作为视频扩散模型的空间和时间引导，分别描述视频的整体外观和字母的运动背景。此外，通过零卷积指导确定视频中应显示的文本内容，并应用零卷积到文本内容，施加于扩散模型。最后，提出了一种仅最小化预测词与其真实值之间差异的字形损失，以使预测字母可读。实验表明，该模型能够根据文本提示生成具有清晰和艺术字母运动的动态排版视频。

原理

本文提出的Kinetic Typography扩散模型（KineTy模型）通过用户提供的文本提示生成动态排版视频。受视频扩散模型启发，允许用户输入关于字母颜色、字体、大小、位置和运动效果的综合描述。为了更好地表示文本运动，首先引入了动态排版视频数据集。60万视频通过随机生成的文本内容与584个专业动态图形设计师制作的模板组合渲染而成。这些视频带有静态和动态字幕，分别描述视频的外观和运动特征。接下来，提出KineTy模型，该模型能有效地从文本提示合成视频。在此，重新评估了如何有效地条件字幕引导进入视频扩散模型的基本层面。通过分别插入静态和动态字幕到空间注意力和时间注意力中，强化这些注意力。为了加强这些注意力，应用零卷积到单词字幕，并将其添加到它们中。使用仅针对生成视频的掩码损失项，通过掩蔽背景内容，使文本内容更可读。实验结果显示，KineTy模型能鲁棒地生成具有多字母可读性的动态排版视频，同时准确地表示字幕。此外，广泛而细致的用户研究表明，KineTy模型比通用视频生成产生更美学的成果。

流程

KineTy模型的架构包括输入视频、编码器、解码器和输出。编码器将视频编码为潜在表示，解码器将潜在表示解码为视频。模型通过静态和动态字幕引导视频生成，静态字幕描述视频的外观，动态字幕描述字母的运动。通过零卷积操作，将文本内容作为条件，通过零初始化的卷积操作，使网络逐渐评估该附加字幕的实用性。字形损失通过模糊掩码的像素级加权策略，强化文本内容的可读性。模型的训练采用两步策略，首先预训练网络生成空间外观，然后训练完整模型，同时冻结空间注意力。

应用

KineTy模型在电视节目、广告、音乐视频和电影预告片等视频媒体中具有广泛的应用前景。动态排版通过控制字母的形状、颜色和纹理随时间变化，增强了信息的传达和观众的记忆。该模型不仅提高了动态排版的设计效率，还通过生成具有清晰和艺术字母运动的视频，提升了动态排版的视觉吸引力和信息传达效果。