Graphusion:利用大型语言模型实现科学知识图谱的零样本构建与融合
摘要
本文介绍了一种名为Graphusion的新型零样本知识图谱构建(KGC)框架,该框架利用大型语言模型(LLMs)从自由文本中构建科学知识图谱。Graphusion的核心融合模块提供了三元组的全局视图,包括实体合并、冲突解决和新三元组发现。文章展示了Graphusion在自然语言处理(NLP)教育领域的应用,并通过TutorQA基准测试验证了其性能,该基准包含六个任务和1200个专家验证的QA对。评估结果显示,Graphusion在链接预测任务上的准确性超过了监督基线模型高达10%,并在实体提取和关系识别的人类评估中分别获得了2.92和2.37的平均分(满分为3分)。
原理
Graphusion框架的工作原理主要分为三个步骤:种子概念生成(S1)、候选三元组提取(S2)和知识图谱融合(S3)。首先,通过LLMs在零样本设置下从自由文本中提取领域特定概念作为种子概念。然后,基于这些种子概念,从自由文本中提取候选三元组。最后,通过融合模块对提取的三元组进行全局合并和冲突解决,生成一个全面的知识图谱。这一过程不仅利用了LLMs的强大零样本能力,还通过全局视角考虑了更广泛的上下文和关系,从而构建出更准确和全面的知识图谱。
流程
Graphusion的工作流程如下:
- 种子概念生成(S1):使用LLMs从科学领域的自由文本数据中提取代表性概念作为种子概念。
 - 候选三元组提取(S2):基于种子概念,从自由文本中提取包含这些概念的候选三元组。
 - 知识图谱融合(S3):对提取的候选三元组进行实体合并、冲突解决和新的三元组推理,生成一个全局视角的知识图谱。
 
例如,在NLP领域,Graphusion可以从文本中提取出“神经机器翻译”和“统计机器翻译”等概念,并通过融合模块确定它们之间的关系,如“神经机器翻译”是“统计机器翻译”的子类型。
应用
Graphusion框架在NLP教育领域展示了其强大的应用潜力,特别是在问答系统(QA)中。通过构建和利用知识图谱,Graphusion能够提供更精确和相关的答案,帮助学生更好地理解复杂的概念关系。此外,该框架还可以扩展到其他科学领域,如医学、法律等,为这些领域的知识管理和问答系统提供支持。随着LLMs技术的进一步发展,Graphusion有望在自动知识图谱构建和知识服务领域发挥更大的作用。
