Conda:一种创新的连续时间动态图数据增强方法

Latent Conditional Diffusion-based Data Augmentation for Continuous-Time Dynamic Graph Mode

摘要

本文针对连续时间动态图(CTDG)模型在处理噪声和有限历史数据时遇到的挑战,提出了一种名为Conda的新型潜在条件扩散数据增强方法。Conda通过结合变分自编码器(VAE)和条件扩散模型,生成目标节点的增强历史邻居嵌入,从而提高CTDG模型的性能。与传统扩散模型不同,Conda仅使用目标节点的历史邻居序列嵌入进行训练,使得增强更加精准。实验结果表明,Conda在多个真实世界数据集上显著提升了链接预测任务的性能,尤其是在历史数据有限的情况下。

原理

Conda的工作原理基于一个三明治架构,包括一个VAE和一个条件扩散模型。首先,VAE将目标节点的历史邻居嵌入压缩到一个低维潜在空间。然后,条件扩散模型在这个潜在空间中进行数据增强,通过逐步添加高斯噪声并学习如何去除这些噪声,生成新的历史邻居嵌入。这种方法的关键优势在于,它不仅在潜在空间中操作,避免了直接修改原始图结构的复杂性,而且还通过条件输入确保了生成数据的真实性和相关性。

流程

Conda的工作流程包括以下几个步骤:

  1. VAE编码:使用VAE将目标节点的历史邻居嵌入压缩到低维空间。
  2. 前向扩散过程:在压缩的嵌入上逐步添加高斯噪声。
  3. 反向扩散过程:学习如何从噪声嵌入中恢复原始数据,生成新的历史邻居嵌入。
  4. VAE解码:将生成的嵌入解码回原始空间,用于后续的CTDG模型训练。
  5. 交替训练:将Conda模块与CTDG模型交替训练,优化整体性能。

应用

Conda的应用前景广泛,特别适用于那些需要处理动态图数据且历史数据有限的场景,如社交网络分析、电子商务推荐系统等。通过提高CTDG模型的性能,Conda有助于提升这些领域的数据处理和决策支持能力。