LaRa:高效大基线辐射场重建技术的前沿探索
摘要
本文介绍了一种名为LaRa的高效大基线辐射场重建方法。该方法通过结合局部和全局推理的transformer层,实现了从稀疏输入视图中快速且高质量的360°辐射场重建。LaRa利用高斯体积作为3D表示,结合图像编码器和组注意力层,实现了高效的正向重建。实验结果表明,该模型在仅使用四块A100-40G GPU进行两天训练后,能够实现高保真的辐射场重建,并具有零样本泛化和域外测试的鲁棒性。
原理
LaRa的核心创新在于其在transformer层中统一了局部和全局推理,这一设计使得模型能够更好地捕捉3D重建的局部特性,同时保持全局一致性。具体来说,模型通过高斯体积来表示场景,每个体素包含一组可学习的Gaussian primitives。图像特征通过DINO图像特征编码器提取,并通过反投影到共享的规范空间中提升为3D特征。组注意力层的设计允许在局部组内进行注意力计算,从而在保持计算效率的同时,实现了特征的有效聚合。这种设计不仅加速了模型的收敛,还提高了重建质量。
流程
LaRa的工作流程包括以下几个关键步骤:首先,使用DINO图像编码器从输入图像中提取特征,并将这些2D特征反投影到3D空间中形成特征体积。接着,通过组注意力层对这些特征体积进行处理,这些层在局部组内进行注意力计算,然后将结果通过3D卷积层进行信息共享。最终,通过一个从粗到细的解码过程,将高斯体积解码为2D高斯参数,用于生成高分辨率的渲染图像。整个流程通过高效的栅格化技术实现,确保了渲染的高效性。
应用
LaRa的应用前景广泛,特别适用于需要从稀疏视图进行高质量3D重建的场景,如虚拟现实、增强现实、机器人视觉和电子商务等。其高效性和鲁棒性使得该技术能够适应多种复杂的实际应用环境,尤其是在资源受限的情况下仍能保持出色的性能。此外,LaRa的零样本泛化能力也为其在未知环境中的应用提供了可能。
