Conda:一种创新的连续时间动态图数据增强方法
摘要
本文针对连续时间动态图(CTDG)模型在处理噪声和有限历史数据时遇到的挑战,提出了一种名为Conda的新型潜在条件扩散数据增强方法。Conda通过结合变分自编码器(VAE)和条件扩散模型,生成目标节点的增强历史邻居嵌入,从而提高CTDG模型的性能。与传统扩散模型不同,Conda仅使用目标节点的历史邻居序列嵌入进行训练,使得增强更加精准。实验结果表明,Conda在多个真实世界数据集上显著提升了链接预测任务的性能,尤其是在历史数据有限的情况下。
原理
Conda的工作原理基于一个三明治架构,包括一个VAE和一个条件扩散模型。首先,VAE将目标节点的历史邻居嵌入压缩到一个低维潜在空间。然后,条件扩散模型在这个潜在空间中进行数据增强,通过逐步添加高斯噪声并学习如何去除这些噪声,生成新的历史邻居嵌入。这种方法的关键优势在于,它不仅在潜在空间中操作,避免了直接修改原始图结构的复杂性,而且还通过条件输入确保了生成数据的真实性和相关性。
流程
Conda的工作流程包括以下几个步骤:
- VAE编码:使用VAE将目标节点的历史邻居嵌入压缩到低维空间。
 - 前向扩散过程:在压缩的嵌入上逐步添加高斯噪声。
 - 反向扩散过程:学习如何从噪声嵌入中恢复原始数据,生成新的历史邻居嵌入。
 - VAE解码:将生成的嵌入解码回原始空间,用于后续的CTDG模型训练。
 - 交替训练:将Conda模块与CTDG模型交替训练,优化整体性能。
 
应用
Conda的应用前景广泛,特别适用于那些需要处理动态图数据且历史数据有限的场景,如社交网络分析、电子商务推荐系统等。通过提高CTDG模型的性能,Conda有助于提升这些领域的数据处理和决策支持能力。
