"LSM-adapter:城市内涝检测的新范式"

Urban Waterlogging Detection: A Challenging Benchmark and Large-Small Model Co-Adapter

摘要

本文针对城市内涝检测这一挑战性问题,提出了一种基于大型和小型模型协同适配的新方法。城市内涝不仅威胁公共安全,还对基础设施造成重大风险。传统方法依赖于水位传感器,但维护成本高且覆盖范围有限。近年来,利用监控摄像头图像和深度学习的方法虽然有所进展,但在数据稀缺和恶劣环境条件下仍面临挑战。为此,本文构建了一个包含7677张图像的Urban Waterlogging Benchmark (UW-Bench),并提出了一种名为Large-Small Model co-adapter (LSM-adapter)的新范式,该范式结合了大型模型的通用分割能力和小型模型的任务导向指导。具体来说,通过Triple-S Prompt Adapter模块和Dynamic Prompt Combiner生成并合并多个提示,以适应掩码解码器。同时,设计了一个Histogram Equalization Adapter模块,将图像特定信息注入图像编码器以进行适应。实验结果和分析显示了所开发基准和算法的挑战性和优越性。

原理

LSM-adapter的工作原理基于大型模型(如SAM)的通用分割能力和小型模型的任务特定指导。大型模型提供广泛的视觉理解能力,而小型模型则专注于特定任务的细节处理。通过Triple-S Prompt Adapter模块,小型模型生成空间、语义和风格三种类型的提示,这些提示通过Dynamic Prompt Combiner动态组合,以优化掩码解码器的输出。此外,Histogram Equalization Adapter模块增强了图像编码器对特定任务相关信息的处理能力,如纹理和对比度。这种协同工作机制使得LSM-adapter能够在复杂和恶劣的环境条件下,如低光照和强光反射等,实现高效且鲁棒的城市内涝检测。

流程

LSM-adapter的工作流程包括以下几个关键步骤:

  1. 图像输入:接收来自监控摄像头或手持设备的图像。
  2. 图像编码:使用SAM的图像编码器对输入图像进行编码,同时通过Histogram Equalization Adapter增强图像特征。
  3. 提示生成:小型模型通过Triple-S Prompt Adapter生成空间、语义和风格三种类型的提示。
  4. 提示组合:Dynamic Prompt Combiner动态组合这些提示,生成最终的提示嵌入。
  5. 掩码解码:将组合后的提示嵌入与图像编码结果一起输入到掩码解码器中,生成最终的分割掩码。
  6. 输出结果:输出检测到的内涝区域掩码。

例如,在处理一张包含内涝的图像时,LSM-adapter首先通过SAM的图像编码器提取图像特征,然后小型模型生成关于内涝区域的空间、语义和风格提示。这些提示通过Dynamic Prompt Combiner组合后,与图像特征一起输入到掩码解码器中,最终输出精确的内涝区域掩码。

应用

LSM-adapter在城市内涝检测领域具有广泛的应用前景。由于其结合了大型模型的通用性和小型模型的任务特定性,该方法不仅适用于城市内涝检测,还可以扩展到其他需要复杂视觉理解和特定任务处理的领域,如灾害监测、交通管理、城市规划等。随着更多实际应用数据的积累和算法的进一步优化,LSM-adapter有望成为未来智能城市管理的重要工具。