ScaleDreamer: 突破文本到3D合成的界限,实现大规模高质量3D内容生成
摘要
ScaleDreamer 是一项关于可扩展文本到3D合成的新研究,通过异步分数蒸馏(ASD)技术,解决了现有分数蒸馏方法在处理大量文本提示时难以扩展的问题。该研究利用文本到图像扩散先验,通过最小化噪声预测误差,实现了在不需要配对文本-3D训练数据的情况下,快速合成高质量的3D内容。ASD方法通过将扩散时间步长移至较早阶段,稳定了训练过程,并保持了预训练扩散模型对大量文本提示的强大理解能力,从而能够在多达10万个提示的情况下有效工作。
原理
ASD方法的核心在于通过将扩散时间步长移至较早阶段来最小化噪声预测误差。这一策略基于观察到扩散模型在较早时间步长时噪声预测误差较低。ASD不调整预训练的2D扩散模型的权重,而是通过调整时间步长来实现目标,从而保持了模型对文本提示的强理解能力。这种方法稳定且易于训练,能够在处理大量文本提示时保持高性能。
流程
ASD的工作流程包括以下步骤:首先,从文本提示生成初始3D表示;然后,通过渲染生成图像;接着,在两个不同的时间步长(t和t+∆t)进行扩散处理;最后,利用噪声预测的差异来优化3D表示。这一流程通过算法1详细描述,并在实验中通过多种2D扩散模型和3D生成器架构进行了验证,展示了ASD在稳定3D生成器训练和高品质3D内容合成方面的有效性。
应用
ASD方法的应用前景广泛,特别是在虚拟现实、游戏设计和其他需要高质量3D内容的领域。由于其能够处理大量文本提示并生成高质量的3D内容,ASD有望成为未来文本到3D生成技术的重要组成部分,推动相关行业的发展和创新。
