高效刀具磨损分割:基于Segment Anything Model的先进解决方案

Efficient Cutting Tool Wear Segmentation Based on Segment Anything Model

摘要

本文介绍了一种基于Segment Anything Model (SAM)的高效刀具磨损分割方法,该方法结合了U-Net作为自动提示生成器,以简化刀具磨损检测过程。研究涵盖了三种兴趣点生成方法,并进一步探讨了训练数据集大小和U-Net训练强度对磨损分割结果的影响。结果显示,即使在有限的训练数据集下,该方法也能实现准确的磨损分割,强调了其在工业场景中的潜在应用价值。

原理

本文提出的方法结合了U-Net和SAM的优势。U-Net作为一种全卷积网络(FCN),通过其大量的特征通道有效地传播上下文信息,并采用U形结构,包括对称收缩和扩展路径。U-Net的训练过程是端到端的,能够直接从原始输入图像生成图像分割掩码。SAM则作为一个基础模型,能够通过提示有效地生成准确的图像分割掩码。SAM包括图像编码器、提示编码器和掩码解码器三个部分。图像编码器使用视觉变换器(ViT)并预训练了掩码自动编码器,能够处理高分辨率输入并生成降维的图像嵌入。提示编码器将密集提示(掩码)卷积以匹配图像嵌入的维度,并将稀疏提示(点、框)映射为256维的向量嵌入。掩码解码器通过两层改进的变换器解码器更新图像和提示嵌入,并通过转置卷积层进行上采样,最终输出掩码。

流程

该方法的工作流程如下:首先,U-Net提供初始图像分割掩码,该掩码经过二值化处理。接着,使用兴趣点(PoI)生成器,从二值化掩码中生成一组PoI,包括目标点(代表刀具磨损)和背景点(代表非磨损区域)。生成的PoI与初始二值化掩码一起被SAM的提示编码器处理。最后,SAM的掩码解码器处理这些提示,输出精确的刀具磨损分割掩码。兴趣点生成器采用三种方法:Mask Shrink (MS)、Center of Gravity Adjustment (CoGA)和Recursive Center of Gravity Adjustment (RCoGA),以生成正点和负点,增强提示的质量。

应用

该方法的应用前景广泛,特别是在工业环境中,由于其能够在有限的数据集下实现高精度的刀具磨损分割,因此非常适合于自动化生产系统中的刀具磨损检测。此外,该方法的灵活性和高效性也使其在其他需要图像分割的领域具有潜在的应用价值。