打破机器学习中的“线上准确性”:噪声数据和干扰特征的影响

Accuracy on the wrong line: On the pitfalls of noisy data for out-of-distribution generalisation

摘要

本文探讨了机器学习中广泛观察到的“线上准确性”现象,即模型在分布内(ID)和分布外(OOD)数据上的准确率在不同超参数和数据配置下呈正相关。然而,本文研究了这一现象的鲁棒性,发现噪声数据和干扰特征的存在足以打破这一现象,导致ID和OOD准确率呈负相关,即“错误线上的准确性”。这种现象在存在虚假(捷径)特征的情况下也可能发生,这些特征往往掩盖了更复杂的信号(核心,非虚假)特征,导致干扰特征空间变大。此外,扩大数据集规模并不会缓解这种不良行为,甚至可能加剧它。本文通过线性分类模型正式证明了OOD错误的一个下界,并展示了这一现象在合成和真实噪声数据集上的存在。

原理

本文的关键观察是,噪声数据和干扰特征的存在可以打破“线上准确性”现象,导致ID和OOD准确率呈负相关。这种现象在存在虚假(捷径)特征的情况下也可能发生,这些特征往往掩盖了更复杂的信号(核心,非虚假)特征,导致干扰特征空间变大。此外,扩大数据集规模并不会缓解这种不良行为,甚至可能加剧它。本文通过线性分类模型正式证明了OOD错误的一个下界,并展示了这一现象在合成和真实噪声数据集上的存在。

流程

本文首先在两个真实世界的计算机视觉数据集(MNIST和Functional Map of the World)上展示了“错误线上的准确性”现象。然后在第3节中,本文正式化了必要的条件,并提供了一个理论证明,表明这些条件是充分的。在第4节中,本文在简单的线性设置中进行了合成干预实验,以证明这些条件确实是充分的,并且行为与我们的理论结果一致。

应用

本文的研究表明,噪声数据和干扰特征的存在打破了ID和OOD准确率的正相关关系。这一发现对广泛采用大型但噪声数据集的实践提出了质疑。本文希望未来的工作能够在数据集的大小和质量之间找到适当的平衡,同时考虑到它们对OOD准确性等可信度指标的影响。