AdapTable:表格数据测试时适应的新方法
摘要
本文介绍了一种针对表格数据的测试时适应(TTA)方法,名为AdapTable。在现实应用中,表格数据由于其广泛性和丰富性,经常面临分布偏移的问题,导致预训练的机器学习模型预测错误。然而,由于表格数据的独特挑战,如属性的多样性和数据集大小的变化,以及深度学习模型在表格数据表示学习能力上的局限性,这一领域的分布偏移问题相对未被充分探索。特别是,随着测试时适应(TTA)这一新兴范式的出现,我们观察到直接采用其他领域的常用TTA方法往往导致模型崩溃。本文系统地探讨了表格数据测试时适应的挑战,并基于这些洞察,提出了一种新颖的表格测试时适应方法AdapTable,该方法通过估计目标标签分布并基于校准的不确定性调整初始概率,直接修改输出概率。在自然分布偏移和合成损坏的广泛实验中,证明了所提出方法的适应效能。
原理
AdapTable方法的核心在于两个关键组件:一个是基于列间协变量偏移信息的移位感知后验不确定性校准器,另一个是标签分布处理器。移位感知不确定性校准器通过预测每个样本的温度缩放因子来校准模型预测,考虑到列的移位信息及其关系,使用图神经网络进行处理。标签分布处理器则实时估计当前测试批次的标签分布,并基于贝叶斯定理进行校正。这两个组件共同作用,通过校准的不确定性和估计的标签分布来调整模型的输出概率,从而在测试时有效地适应表格数据。
流程
AdapTable的工作流程包括以下步骤:首先,定义测试时适应的问题设置,使用预训练的表格分类器在无标签的目标表格域上进行适应。其次,提出移位感知不确定性校准器,该校准器利用目标域中的测试批次数据,通过图神经网络预测每个样本的温度缩放因子。然后,引入标签分布处理器,该处理器估计当前测试批次的标签分布,并使用校准的不确定性来调整输出分布。最后,通过大量实验验证该方法在不同数据集和模型架构上的性能。
应用
AdapTable方法的应用前景广泛,特别是在需要处理表格数据分布偏移的场景中,如医疗健康记录、金融数据分析和制造业数据处理等。该方法不仅能够提高模型在未知目标域上的泛化能力,还能够有效地保护敏感源域数据的隐私和安全。随着数据驱动决策在各行各业的普及,AdapTable有望成为处理表格数据分布偏移问题的关键工具。
