探索知识图谱中的简单可解释概率分类器:新技术与应用前景

Simple and Interpretable Probabilistic Classifiers for Knowledge Graphs

摘要

本文探讨了在知识图谱(Knowledge Graphs, KGs)背景下,从不完全数据中学习概率分类器的问题。作者提出了一种基于简单信念网络的归纳方法,特别是基于多元伯努利分布的朴素贝叶斯分类器及其扩展到两层网络的模型。这些模型能够转换为概率公理(或规则),从而提高解释性,并且可以利用专家知识进行初始化。论文通过实验评估了这些模型在不同本体上的分类任务中的有效性。

原理

论文提出的模型基于多元伯努利朴素贝叶斯模型(MBNBM),假设输入特征在给定目标类别的情况下是条件独立的。该模型通过贝叶斯规则计算后验概率,从而进行分类。此外,论文还引入了一个两层层次模型,其中底层是一个伯努利混合模型,用于对个体进行聚类,然后再应用分类器。这种层次模型特别适用于数据 inherently incomplete 的情况,如在开放世界假设下的逻辑和大型分布式KGs中。

流程

论文详细描述了模型的训练过程,包括如何处理不完整数据(如缺失输入特征或目标特征),以及如何通过期望最大化(EM)算法来拟合模型参数。实验部分展示了如何通过交叉验证来评估模型性能,并比较了不同模型在多个分类任务上的表现。

应用

论文提出的概率分类器不仅适用于KG的分类任务,还可用于KG的完善和细化、公理(不相交性)发现、聚类、异常检测等多个应用。这些分类器由于其简单性和可解释性,也适合领域专家进行验证和集成。