µ-Bench:开启显微镜理解的新篇章

μ-Bench: A Vision-Language Benchmark for Microscopy Understanding

摘要

本文介绍了 µ-Bench,这是一个用于显微镜理解的视觉语言基准。它涵盖了各种科学学科、显微镜模式、尺度和生物的 22 个生物医学任务。作者通过评估最先进的生物医学、病理学和通用 VLM,发现当前模型在所有类别上都存在困难,即使是基本任务,如区分显微镜模式。此外,当前的专业模型在生物医学数据上进行微调后,往往表现不如通用模型。在特定显微镜领域进行微调可能导致灾难性遗忘,侵蚀基础模型中编码的先前生物医学知识。

原理

µ-Bench 的工作原理是通过专家策划的基准测试,评估 VLM 在显微镜图像分析中的感知和认知能力。它包括两个主要部分:一是由生物医学专家分类潜在任务并收集来自多个科学领域的各种显微镜数据集,重点评估感知能力;二是通过网络应用程序从更多的显微镜专家那里众包问题,以补充 µ-Bench。

流程

µ-Bench 的工作流程包括以下步骤:

  1. 数据收集:从 Zenodo、Dataverse、Dryad 和 BBBC 等开放数据存储库中搜索显微镜生物医学图像数据集。
  2. 数据筛选:优先选择具有许可衍生物和再分配的宽松许可证(CC BY 4.0)的数据。
  3. 数据审核:由细胞生物学家和病理学家审查图像,以确保高质量。
  4. 数据标准化:将原始数据集转换为统一的格式,并从其元数据中提取信息进行标准化。
  5. VQA 任务生成:使用标准化的元数据创建封闭的 VQA 问题,测试不同级别的能力。
  6. 本地化任务生成:生成空间本地化基准分割,要求预测细胞、细胞核或细胞器的边界框或分割掩码。
  7. 质量控制:在整个处理过程中,验证每个数据实例的模式,以确保格式一致并捕获/修复错误。

应用

µ-Bench 可以用于评估 VLM 在显微镜图像分析中的性能,为生物医学研究提供有价值的见解。它可以帮助研究人员了解模型的优势和局限性,并为开发更强大的 VLM 提供指导。此外,µ-Bench 还可以促进生物医学领域的研究和发展,加速科学发现和创新。