"BiSIC:开创性的双向立体图像压缩技术,引领视觉体验新纪元"

Bidirectional Stereo Image Compression with Cross-Dimensional Entropy Model

摘要

本文介绍了一种名为BiSIC的新型双向立体图像压缩架构,旨在解决传统单向压缩方法中存在的压缩质量不平衡问题。BiSIC通过采用3D卷积编解码器骨干网络来捕获局部特征,并结合双向注意力块来利用全局特征。此外,本文还设计了一种新颖的跨维度熵模型,该模型集成了多种条件因素,包括空间上下文、通道上下文和立体依赖性,以有效估计潜在表示的分布进行熵编码。实验结果表明,BiSIC在PSNR和MS-SSIM指标上均优于传统的图像/视频压缩标准以及基于学习的最先进方法。

原理

BiSIC的工作原理基于其独特的双向架构和跨维度熵模型。首先,通过3D卷积编解码器骨干网络,BiSIC能够同时处理左右视图,捕获视图间的依赖关系,这是传统2D卷积无法实现的。其次,双向注意力块的设计使得特征可以在视图间进行有效交换,增强了视图间的集成和协作。最后,跨维度熵模型通过集成超先验、空间上下文、通道上下文和立体依赖性,提供了更精确的概率分布估计,从而实现更高效的熵编码。

流程

BiSIC的工作流程包括以下几个关键步骤:首先,输入的立体图像通过3D卷积编码器进行处理,生成紧凑的潜在表示。接着,这些潜在表示通过双向注意力块进行处理,以增强视图间的特征交换。然后,跨维度熵模型对这些潜在表示进行概率分布估计,生成紧凑的比特流。最后,解码器使用这些比特流重建原始图像。整个过程是双向对称的,确保了左右视图的压缩质量平衡。

应用

BiSIC的应用前景广泛,特别适用于需要高质量立体图像压缩的领域,如3D电影、远程 sensing、自动驾驶和增强/虚拟现实(AR/VR)。由于其优越的性能和平衡的视图压缩质量,BiSIC有望在这些领域中取代传统的压缩方法,提供更沉浸和逼真的视觉体验。