"Precision at Scale: 革新领域特定数据集的自主生成方法"
摘要
本文介绍了一种名为“Precision at Scale (PaS)”的创新方法,该方法能够自主创建特定领域的数据集,以减少当前性能差距。PaS通过利用最先进的基础和生成模型,创建属于任何给定领域的图像集合,且仅需最少的人工干预。该方法在两个复杂领域进行了广泛分析,证明了PaS数据集在多样性、规模和训练视觉变换器及卷积神经网络的有效性方面的优越性。特别地,自动生成的领域特定数据集在预训练方面优于大规模监督数据集,如ImageNet-1k和ImageNet-21k。
原理
PaS方法的核心在于其完全自主的工作流程,从利用大型语言模型(LLM)发现领域特定概念开始,到收集真实图像和生成合成图像,再到应用高级筛选技术去除冗余和无关内容。最终,该方法生成一个高度精确的数据集,用于在自监督方式下训练视觉模型,并根据目标模型的资源和用例进行扩展。PaS的模块化设计允许灵活使用不同的LLM、图像生成器或图像源,确保了方法的先进性和适应性。
流程
PaS的工作流程分为四个阶段:第一阶段通过LLM引导的概念发现,构建一个广泛的领域特定概念库;第二阶段收集与这些概念对应的实际图像和生成合成图像,以丰富数据集的多样性;第三阶段通过自监督相似性移除和基于CLIP的OOD评估,进行数据集的精细筛选;第四阶段将精心策划的领域特定数据集用于训练自监督模型,这些模型随后可适应各种下游任务。例如,在食品领域,PaS生成的数据集在分类任务中表现优于传统数据集,证明了其有效性。
应用
PaS方法的应用前景广泛,特别是在需要大量高质量领域特定数据的计算机视觉任务中,如图像分类、目标检测和语义分割。由于PaS能够生成与特定领域高度相关的数据集,它有望在医疗影像、农业监测、食品识别等多个领域推动技术的进步。此外,PaS的模块化设计也使其易于适应新的领域和应用场景,具有很高的灵活性和扩展性。
