震惊!AI Agent 竟能发现知识图谱中的错误,为生物医学研究带来新突破!

BioKGBench: A Knowledge Graph Checking Benchmark of AI Agent for Biomedical Science

摘要

本文提出BioKGBench,一个用于评估AI Agent在生物医学领域理解文献和知识图谱能力的新基准。该基准由两个原子任务组成,即知识图谱问答(KGQA)和科学声明验证(SCV)。

原理

BioKGBench的工作原理如下:

  1. KGQA:通过向LLM提供一套原子KG查询工具,要求其通过查询提供的KG来回答生物医学问题。然后,将回答与黄金答案进行比较,并使用F1分数进行评估,其中输入问题的黄金答案通常是一组KG实体。
  2. SCV:基于从同行评审研究论文中检索到的文本,以检索增强生成的方式评估LLM对研究论文中非结构化文本的理解。
  3. KGCheck:将KGQA和SCV的结果进行综合评估,以检查知识图谱中的事实错误。

流程

BioKGBench的工作流程如下:

  1. 数据集准备:收集大量的生物医学知识图谱数据、研究论文和相关的标注数据。
  2. 任务定义:定义KGQA、SCV和KGCheck三个任务,每个任务都有明确的输入和输出。
  3. 模型训练:使用收集到的数据训练各种LLM模型,并对其进行评估和比较。
  4. 结果评估:使用F1分数、准确率等指标对模型的性能进行评估,并对结果进行分析和解释。

应用

BioKGBench的应用前景包括:

  1. 评估AI Agent在生物医学领域的性能:帮助研究人员和开发者了解不同AI Agent在理解文献和知识图谱方面的能力,为选择合适的AI Agent提供依据。
  2. 推动AI在生物医学领域的发展:通过提供一个统一的基准,促进AI技术在生物医学领域的研究和应用,推动该领域的发展。
  3. 发现生物医学知识图谱中的错误:通过KGCheck任务,发现知识图谱中的事实错误,为知识图谱的更新和完善提供帮助。