**革新农业技术:基于视觉基础模型的开放集水果检测系统**
摘要
本文介绍了一种基于先进视觉基础模型(VFMs)的开放集水果检测系统,该系统利用了迄今为止最大的公开多类别水果数据集MetaFruit。水果采摘行业面临劳动力和财务负担,因此需要机器人采摘解决方案的进步。尽管深度学习和机器学习技术在水果检测方面取得了显著进展,但现有模型难以快速适应不同果园或多种水果种类。此外,相关数据的有限可用性进一步加剧了这些挑战。MetaFruit数据集包含4,248张图像和248,015个手动标注实例,覆盖美国多个果园。该研究提出的系统不仅展示了在极少数据上通过少量学习快速学习的能力,还展示了处理人类指令进行精细检测任务的能力。该模型的性能在多个指标上超越了现有最先进算法,为农业技术和机器人采摘设定了新标准。MetaFruit数据集和检测框架已公开,以促进基于视觉的水果采摘及相关应用的未来研究。
原理
该研究提出的开放集水果检测系统基于先进的视觉基础模型(VFMs),特别是Grounding DINO模型。Grounding DINO是一个基于DETR-like架构DINO的开放集检测器,集成了端到端的Transformer基础检测机制。该模型通过训练现有的边界框标注,并通过语言泛化增强,以识别训练过程中未见过的类别。模型的整体工作流程包括从图像和文本中提取基本特征,通过特征增强网络融合跨模态特征,利用语言引导的查询选择模块选择跨模态查询,最后通过跨模态解码器提取和细化所需特征,预测对象边界框并关联适当的文本描述。损失函数结合了L1损失、GIOU损失和对比损失,以优化边界框回归和对象分类。
流程
- 数据收集与标注:从美国北部的密歇根州和加利福尼亚州的商业果园收集图像,使用高清相机和LiDAR系统进行数据采集,并通过Labelme工具手动标注边界框。
 - 模型训练:使用Grounding DINO模型进行训练,该模型从预训练的DINO权重转移,而不是从头开始训练。模型在包含O365、GoldG和Cap4M等多个数据集上进行预训练。
 - 少量学习:在零样本和少量学习场景中评估模型性能,其中零样本学习不涉及任何特定类别的训练,而少量学习仅使用极少量的样本进行训练。
 - 性能评估:通过平均精度(mAP)、平均召回率(mAR)和平均精度(AP50)等指标评估模型性能,并在MetaFruit数据集和其他公开水果数据集上进行测试。
 - 应用与部署:模型和数据集的公开发布,以便进一步研究和工程集成,特别是在基于视觉的水果采摘和相关应用中。
 
应用
该研究提出的水果检测系统具有广泛的应用前景,特别是在自动化水果采摘机器人领域。通过高效的水果识别和定位,机器人可以更有效地进行采摘操作,减少人工劳动和成本。此外,该系统的少量学习和零样本学习能力使其能够适应新的水果种类和果园环境,增强了其在农业技术中的适应性和灵活性。随着技术的进一步发展和优化,预计该系统将在全球农业生产中发挥重要作用,提高生产效率和经济效益。
