Conda：一种创新的连续时间动态图数据增强方法

Posted on 2024-07-11 in CS.AI • 13 words • 1 minute read

Last updated on 2024-07-12

摘要

本文针对连续时间动态图（CTDG）模型在处理噪声和有限历史数据时遇到的挑战，提出了一种名为Conda的新型潜在条件扩散数据增强方法。Conda通过结合变分自编码器（VAE）和条件扩散模型，生成目标节点的增强历史邻居嵌入，从而提高CTDG模型的性能。与传统扩散模型不同，Conda仅使用目标节点的历史邻居序列嵌入进行训练，使得增强更加精准。实验结果表明，Conda在多个真实世界数据集上显著提升了链接预测任务的性能，尤其是在历史数据有限的情况下。

原理

Conda的工作原理基于一个三明治架构，包括一个VAE和一个条件扩散模型。首先，VAE将目标节点的历史邻居嵌入压缩到一个低维潜在空间。然后，条件扩散模型在这个潜在空间中进行数据增强，通过逐步添加高斯噪声并学习如何去除这些噪声，生成新的历史邻居嵌入。这种方法的关键优势在于，它不仅在潜在空间中操作，避免了直接修改原始图结构的复杂性，而且还通过条件输入确保了生成数据的真实性和相关性。

流程

Conda的工作流程包括以下几个步骤：

VAE编码：使用VAE将目标节点的历史邻居嵌入压缩到低维空间。
前向扩散过程：在压缩的嵌入上逐步添加高斯噪声。
反向扩散过程：学习如何从噪声嵌入中恢复原始数据，生成新的历史邻居嵌入。
VAE解码：将生成的嵌入解码回原始空间，用于后续的CTDG模型训练。
交替训练：将Conda模块与CTDG模型交替训练，优化整体性能。

应用

Conda的应用前景广泛，特别适用于那些需要处理动态图数据且历史数据有限的场景，如社交网络分析、电子商务推荐系统等。通过提高CTDG模型的性能，Conda有助于提升这些领域的数据处理和决策支持能力。