探索大型语言模型在图数据上的理解和推理能力:GraCoRe基准的全面评估
摘要
本文介绍了GraCoRe基准,旨在系统评估大型语言模型(LLMs)在图结构数据上的理解和推理能力。GraCoRe通过一个三层层次分类法,对纯图和异构图的10个不同领域进行测试,共包含19个任务和11个数据集,总计5,140个图。研究评估了三种闭源和七种开源LLMs,发现语义丰富性可以提升推理性能,节点顺序对任务成功有显著影响,而处理长文本的能力并不一定提高图理解或推理能力。GraCoRe的开源地址为https://github.com/ZIKEYUAN/GraCoRe。
原理
GraCoRe基准通过一个三层层次分类法来评估LLMs的图理解和推理能力。第一层区分了图理解和图推理两大能力;第二层根据不同数据类型将能力细分为四类;第三层进一步将这四类能力细分为10个具体能力,并通过19个任务进行测试。每个任务都有精心设计的提示和基于预定义规则构建的图结构信息文本化。通过这种方式,GraCoRe能够全面评估LLMs在图数据上的表现,并揭示其在理解和推理方面的具体弱点。
流程
GraCoRe的工作流程包括数据收集、任务设计和模型评估三个主要步骤。首先,数据集被分为纯图和异构图,根据任务特性定制数据生成提示,生成相应的图结构数据。其次,设计了19个任务,每个任务都有特定的提示和数据集构建规则。最后,通过精确匹配准确性对LLMs的输出进行评估,并使用标准化全局分数来比较不同任务和模型的性能。例如,在节点数量任务中,模型需要直接回答图中节点的总数,而不需要推理过程。
应用
GraCoRe基准的应用前景广泛,特别是在社交网络分析、药物发现、推荐系统和时空预测等领域。通过评估和提升LLMs在图数据上的理解和推理能力,可以推动这些领域的发展,并促进人工智能通用智能(AGI)的进步。此外,GraCoRe的开源性质也鼓励了社区的参与和进一步的研究。
