探索图分类的新前沿:Core Knowledge Learning框架的突破与应用
摘要
本文由Bowen Zhang等人提出,针对图分类领域中的关键挑战,特别是在图数据处理中的适应性、可扩展性和泛化性问题,提出了一种名为Core Knowledge Learning (CKL)的新框架。该框架通过学习图的核心子图知识,有效地解决了图分类中的域适应、标签不一致和小样本预测等难题。CKL框架包括核心子图知识子模块、图域适应模块和少样本学习模块,每个模块都针对特定的挑战进行优化。实验结果表明,CKL在多个数据集和评估指标上显著优于现有的最先进方法,显示出其在图分类任务中的高效性和先进性。
原理
CKL框架的核心在于识别并学习对图神经网络(GNN)预测至关重要的核心子图,同时忽略任务无关的部分。该框架通过以下几个关键步骤实现其功能:
- 核心子图学习:通过GNN提取图的节点嵌入,并使用多层感知器(MLP)将节点和边映射到同一特征空间。然后,通过Sigmoid函数计算节点和边的采样概率,使用Gumbel-softmax进行可微分处理,最终通过蒙特卡洛近似优化条件熵,提取核心子图。
 - 图域适应:在图域适应任务中,CKL使用Weisfeiler-Lehman (WL)子树核函数计算源域和目标域核心子图的相似度,并基于此进行标签分配,从而实现域间的有效转移。
 - 少样本学习:在少样本学习任务中,CKL采用双层优化策略,通过内层优化更新核心子图学习参数,外层优化更新任务相关嵌入函数和分类器的参数,以适应新任务的快速学习。
 
流程
CKL的工作流程可以概括为以下几个步骤:
- 输入训练和测试图数据。
 - 核心子图学习:选择核心边和节点,优化核心子图学习参数。
 - 图域适应任务:计算目标域图与源域子图的相似度,分配标签。
 - 少样本学习任务:进行内层和外层优化,更新参数。
 - 输出参数Θ和Φ。
 
应用
CKL框架在图分类领域具有广泛的应用前景,特别是在需要处理多样化和大规模图数据的场景中,如社交网络分析、推荐系统和生物信息学。其高效的域适应能力和少样本学习特性使其在实际应用中能够快速适应新数据和任务,提高模型的泛化能力和实用性。
