Swiss DINO:开启设备上个人物品搜索的新纪元

Swiss DINO: Efficient and Versatile Vision Framework for On-device Personal Object Search

摘要

本文介绍了一种名为Swiss DINO的高效且多功能的视觉框架,专门用于设备上的个人物品搜索。该框架解决了家庭机器人设备中视觉系统个性化的问题,特别是在个人物品的定位和识别方面。Swiss DINO基于DINOv2变换器模型,具有强大的零样本泛化能力,能够在不进行任何适应性训练的情况下处理设备上的个性化场景理解需求。与现有的轻量级解决方案相比,Swiss DINO在分割和识别准确性上提高了55%,同时在骨干推理时间和GPU消耗上分别减少了100倍和10倍。

原理

Swiss DINO的工作原理主要基于DINOv2变换器模型的强大特征提取和对象定位能力。该框架通过预训练的变换器模型提取图像的补丁级特征映射,然后通过支持特征映射处理和查询特征映射处理两个主要步骤来实现个人物品的搜索。在支持特征映射处理阶段,框架通过将边界框转换为分割映射并进行补丁池化,生成每个个人物品的类原型。在查询特征映射处理阶段,框架使用这些类原型来识别和定位查询图像中的个人物品。整个过程不依赖于粗略数据集的训练,使得系统能够在设备上无缝实现。

流程

Swiss DINO的工作流程包括三个主要步骤:补丁级特征映射提取、支持特征映射处理和查询特征映射处理。首先,使用预训练的DINOv2变换器模型提取图像的补丁级特征映射。然后,通过将支持图像的边界框转换为分割映射并进行补丁池化,生成每个个人物品的类原型。最后,在查询图像中使用这些类原型来识别和定位个人物品。例如,当用户提供少量带有位置标注的参考图像时,系统能够在新场景中定位和识别这些个人物品。

应用

Swiss DINO的应用前景广泛,特别适用于需要处理个人视觉场景或操作特定个人物品的机器人家庭设备和移动系统。例如,在导航、人机交互(HRI)和抓取等任务中,Swiss DINO能够提供高效的物品定位和识别功能。此外,由于其轻量级和高效的特性,该框架也适用于资源受限的设备,如智能手机和便携式机器人。