MMEVALPRO:革新多模态模型评估的新基准
摘要
MMEVALPRO是一项针对大型多模态模型(LMMs)评估的新基准,旨在解决现有评估基准中存在的系统性偏差问题。该基准通过引入感知和知识锚定问题,增强了原始的多项选择题(MCQs),并定义了真实准确性(Genuine Accuracy, GA)作为主要评估指标,以更严格地评估模型的多模态理解能力。MMEVALPRO包含2,138个问题三元组,总计6,414个独特问题,其中三分之二由人类专家手动标注,其余来自现有基准(MMMU, ScienceQA, MathVista)。实验结果表明,MMEVALPRO比现有基准更具挑战性和可信度,最先进的LMMs与人类表现之间存在显著差距。
原理
MMEVALPRO的工作原理基于对原始多模态问题进行扩展,通过添加感知和知识锚定问题来确保模型不仅能够回答原始问题,还能展示其对图像内容的理解和问题解决的逻辑。感知问题要求模型识别图像中的关键信息,而知识问题则测试模型对问题解决所需知识的掌握。真实准确性(GA)指标要求模型同时正确回答原始问题及其相关的感知和知识问题,从而确保评估的全面性和准确性。
流程
MMEVALPRO的工作流程包括数据准备、问题分析、问题标注和双重检查。首先,标注者详细审查原始问题以深入理解其概念和解决过程。接着,标注者根据对原始问题的理解,创建一个感知问题和一个知识问题。每个问题都必须是多项选择题,并提供正确的答案选项。最后,通过双重检查确保每个问题三元组的质量和逻辑一致性。例如,对于一个关于几何图形的问题,感知问题可能是询问图像中三角形的数量,而知识问题则涉及三角形角度关系的数学原理。
应用
MMEVALPRO的应用前景广泛,特别适用于教育科技、人工智能研究和开发领域。它可以帮助研究人员和开发者更准确地评估和改进多模态模型的性能,尤其是在需要复杂视觉理解和逻辑推理的任务中。此外,MMEVALPRO还可以用于教育评估,通过模拟真实世界的复杂问题,评估学生在多学科背景下的综合解决能力。
