突破数据稀缺:一种创新的合成表格数据生成方法

Artificial Inductive Bias for Synthetic Tabular Data Generation in Data-Scarce Scenarios

摘要

本文针对数据稀缺场景下的合成表格数据生成问题,提出了一种新颖的方法论。该方法利用深度生成模型(DGMs)通过迁移学习和元学习技术引入人工归纳偏差,以提高在有限真实数据环境中的合成数据质量和可靠性。研究通过比较四种不同的方法,展示了迁移学习策略(如预训练和模型平均)相对于元学习方法(如模型无关元学习MAML和领域随机化搜索DRS)的优越性。实验结果表明,该方法在多个基准数据集上显著提高了合成数据的质量,特别是在Jensen-Shannon散度指标上实现了高达50%的相对增益。该方法在医疗和金融等领域具有广泛的应用前景,这些领域通常面临数据稀缺的挑战。

原理

本文提出的方法通过在DGMs中引入人工归纳偏差来改善合成表格数据的生成。归纳偏差是通过迁移学习和元学习技术生成的,这些技术包括预训练、模型平均、MAML和DRS。预训练通过在合成数据上训练一个DGM来引入归纳偏差,然后将学习到的权重用于初始化目标域的DGM。模型平均则是通过训练多个DGM实例并平均它们的权重来生成归纳偏差。MAML和DRS则是通过元学习框架来优化DGM的初始权重,使其能够快速适应新任务。这些方法的核心在于利用DGMs在训练过程中的变异性来捕获数据的不同方面,从而生成更高质量的合成数据。

流程

  1. 数据准备:选择一个包含N个条目的表格数据集,每个条目有C个特征。
  2. DGM训练:使用真实数据训练一个DGM,目标是学习一个接近真实数据分布的表示。
  3. 人工归纳偏差生成
    • 预训练:在合成数据上训练一个DGM,并将学习到的权重用于初始化目标DGM。
    • 模型平均:训练多个DGM实例,并平均它们的权重作为初始权重。
    • MAML:通过元学习框架优化DGM的初始权重,使其能够快速适应新任务。
    • DRS:通过领域随机化搜索方法训练DGM,生成初始权重。
  4. 合成数据生成:使用带有归纳偏差的DGM生成新的合成数据样本。
  5. 验证:使用Jensen-Shannon散度等指标评估合成数据与真实数据分布的相似性。

应用

该方法在数据稀缺的场景下具有广泛的应用前景,特别是在医疗、金融和其他需要大量高质量数据的领域。通过生成高质量的合成表格数据,该方法可以帮助这些领域克服数据不足的问题,推动机器学习模型的开发和应用。此外,该方法还可以用于数据隐私保护,通过合成数据替代真实数据进行模型训练,从而保护原始数据的隐私。