震惊!AI Agent 竟能发现知识图谱中的错误,为生物医学研究带来新突破!
摘要
本文提出BioKGBench,一个用于评估AI Agent在生物医学领域理解文献和知识图谱能力的新基准。该基准由两个原子任务组成,即知识图谱问答(KGQA)和科学声明验证(SCV)。
原理
BioKGBench的工作原理如下:
- KGQA:通过向LLM提供一套原子KG查询工具,要求其通过查询提供的KG来回答生物医学问题。然后,将回答与黄金答案进行比较,并使用F1分数进行评估,其中输入问题的黄金答案通常是一组KG实体。
 - SCV:基于从同行评审研究论文中检索到的文本,以检索增强生成的方式评估LLM对研究论文中非结构化文本的理解。
 - KGCheck:将KGQA和SCV的结果进行综合评估,以检查知识图谱中的事实错误。
 
流程
BioKGBench的工作流程如下:
- 数据集准备:收集大量的生物医学知识图谱数据、研究论文和相关的标注数据。
 - 任务定义:定义KGQA、SCV和KGCheck三个任务,每个任务都有明确的输入和输出。
 - 模型训练:使用收集到的数据训练各种LLM模型,并对其进行评估和比较。
 - 结果评估:使用F1分数、准确率等指标对模型的性能进行评估,并对结果进行分析和解释。
 
应用
BioKGBench的应用前景包括:
- 评估AI Agent在生物医学领域的性能:帮助研究人员和开发者了解不同AI Agent在理解文献和知识图谱方面的能力,为选择合适的AI Agent提供依据。
 - 推动AI在生物医学领域的发展:通过提供一个统一的基准,促进AI技术在生物医学领域的研究和应用,推动该领域的发展。
 - 发现生物医学知识图谱中的错误:通过KGCheck任务,发现知识图谱中的事实错误,为知识图谱的更新和完善提供帮助。
 
