CLAMP-ViT:引领视觉变换器数据无源量化的新纪元
摘要
本文介绍了一种名为CLAMP-ViT的新型数据无源后训练量化方法,专门针对视觉变换器(ViTs)。该方法解决了现有技术在利用补丁间关系生成简单且语义模糊数据方面的局限性,影响量化精度。CLAMP-ViT采用两阶段方法,循环适应数据生成和模型量化。具体来说,它结合了补丁级对比学习方案来生成更丰富、语义上有意义的数据,并利用对比学习在层级进化搜索中识别最优量化参数,同时减轻非平滑损失景观的影响。广泛的评估表明,CLAMP-ViT在各种视觉任务中表现优于现有方法,分类任务的top-1准确率提高了高达3%,目标检测的平均精度提高了0.6 mAP,分割任务的平均交并比提高了1.5 mIoU,且在相似或更好的压缩比下。
原理
CLAMP-ViT的核心在于其两阶段的工作原理:首先,通过补丁级对比学习生成合成数据,其次,通过层级进化搜索进行模型量化。在数据生成阶段,CLAMP-ViT利用视觉变换器的多头部自注意力(MHSA)层输出中的每个补丁(锚点),将其周围语义相似的补丁视为正补丁,其余为负补丁,通过对比损失函数驱动锚点补丁的表示更接近正补丁,远离负补丁,从而探索语义上有意义的补丁间关系。在量化阶段,CLAMP-ViT采用层级进化搜索策略,通过对比损失和均方误差损失的组合来评估量化参数,确保在非平滑的损失景观中找到最优的量化参数。
流程
CLAMP-ViT的工作流程包括两个主要阶段:合成数据生成和模型量化。在合成数据生成阶段,系统输入一批随机高斯图像,通过冻结的量化模型和全精度模型计算对比损失和输出损失,更新图像以最小化总损失。在模型量化阶段,系统使用生成的数据对量化模型进行量化,通过层级进化搜索策略,交替进行参数再生和多样性促进选择,评估并更新量化参数。这两个阶段交替进行,确保生成的数据适应量化过程的需求。
应用
CLAMP-ViT的应用前景广泛,适用于各种视觉任务,包括图像分类、目标检测和语义分割。其高效的量化方法不仅提高了模型在资源受限边缘设备的部署效率,还通过减少模型大小和计算需求,推动了深度学习模型在移动和嵌入式设备上的应用。此外,CLAMP-ViT的方法也为未来在更广泛的架构(如视觉-语言模型)上的应用提供了可能性。
