探索TemporalStory:通过空间-时间注意力机制革新故事可视化技术

TemporalStory: Enhancing Consistency in Story Visualization using Spatial-Temporal Attention

摘要

本文介绍了一种名为TemporalStory的新型故事可视化方法,该方法通过利用空间-时间注意力机制来增强图像生成中的连贯性。故事可视化是一个挑战性的任务,它不仅需要从文本提示中渲染视觉细节,还需要确保图像之间的一致性。传统的自回归方法通常依赖于先前的图像-句子对来解决不一致问题,但这些方法忽略了故事上下文分散在所有句子中的事实。TemporalStory通过引入文本适配器和故事流适配器,有效地整合了来自其他句子的信息,并利用图像间的场景变化来指导模型,从而在故事可视化和故事续写任务中取得了优于现有技术的性能。

原理

TemporalStory模型的核心在于其空间-时间注意力机制,该机制能够捕捉图像中的复杂空间和时间依赖关系。通过在每个UNet块中添加时间卷积层和时间注意力层,模型能够更好地获取所有图像的上下文信息,从而避免不一致问题。文本适配器通过交叉注意力层将其他句子的信息整合到当前句子的嵌入中,增强了故事线的上下文理解。故事流适配器则通过计算图像间的变化程度来指导模型,进一步提高了图像生成的连贯性。

流程

TemporalStory的工作流程包括以下几个关键步骤:首先,通过空间-时间注意力机制捕捉图像间的空间和时间依赖关系;其次,使用文本适配器处理来自CLIP文本编码器的故事线嵌入,整合其他句子的信息;然后,故事流适配器计算故事图像间的变化,提供场景变化的指导;最后,在推理阶段,文本适配器和故事流适配器共同指导UNet生成连贯的故事图像。例如,在PororoSV数据集上的一个示例中,模型能够根据给定的故事线生成一系列连贯的图像,每个图像都与相应的句子内容紧密对应。

应用

TemporalStory模型的应用前景广泛,特别是在需要生成连贯视觉内容的领域,如儿童故事书的制作、动画制作、电影剧本的可视化预览等。该模型的高连贯性和上下文理解能力使其成为自动化内容创作的有力工具,有望在未来的数字内容生成领域发挥重要作用。