探索认知推理:NTSEBENCH数据集与多模态模型评估的新前沿
摘要
本文介绍了一种名为NTSEBENCH的新型数据集,旨在评估大型深度学习模型(如LLMs和VLMs)在复杂文本、视觉和多模态认知推理能力方面的表现。该数据集包含2,728个多选题,涵盖26个不同的问题类别,来源于印度全国性的NTSE考试。文章还提出了四种不同的建模策略来处理数据集中的多模态(文本和图像)实例,并评估了开源和专有模型的性能。研究结果显示,专有模型在大多数类别中表现优于开源模型,且在多模态问题上的表现尤为突出。此外,文章还探讨了不同建模策略对模型准确性的影响,并强调了多模态推理对于当前最先进的VLMs来说是一个显著的挑战。
原理
NTSEBENCH数据集的设计旨在测试模型在处理复杂认知推理任务时的能力,这些任务包括但不限于序列推理、类比推理和空间推理。数据集中的问题涵盖了文本和视觉两种形式,以及两者的结合。为了应对这些多模态问题,研究者提出了四种建模策略:
- 标准QA模型:适用于仅包含文本的问题,使用如GPT-3.5-Turbo或Llama-3-70b等模型。
 - 图像仅模型:将所有问题和选项作为单一图像呈现给模型,利用模型的OCR能力来理解和回答问题。
 - 交错模型:结合文本和多个图像,以增强模型在文本和视觉元素之间建立联系的能力。
 - 标准VQA模型:将所有问题和选项图像拼接成单一图像,并附带文本提示,指导模型关注图像的特定部分。
 
这些策略旨在通过不同的输入处理方式,评估模型在多模态环境下的推理能力。
流程
数据集的构建流程包括从过往的NTSE试卷中提取问题,通过OCR技术将PDF文件转换为Word文件,并手动校正错误。随后,使用DOCXLATEX库将所有方程式转换为LaTeX表达式,并利用PYMUPDF库提取所有文本和图像数据。最终,创建了一个包含2,728个多选题和4,642张图像的数据集。
在模型评估阶段,研究者使用了多种开源和专有LLMs和VLMs,通过零样本和少样本的链式思维(COT)提示策略进行测试。模型被要求在给定的问题和选项中选择正确答案,并提供推理过程。评估结果显示,专有模型如Gemini-1.5 Pro和GPT-4o在多模态问题上表现出色,而开源模型如Qwen-VL-Chat和InternLM-XComposer2则在某些类别中显示出潜力。
应用
NTSEBENCH数据集及其评估方法为未来在教育和人工智能领域的研究提供了宝贵的资源。通过这种类型的数据集,研究人员可以更好地理解模型在复杂认知任务上的表现,并开发新的算法和模型来提高这些任务的解决能力。此外,该数据集还可以用于教育评估工具的开发,帮助教育工作者和学生更好地理解和应对复杂的认知挑战。
