数据中心评估框架:提升机器学习模型在表格数据上的性能评估

A Data-Centric Perspective on Evaluating Machine Learning Models for Tabular Data

摘要

本文探讨了如何评估机器学习模型在表格数据上的性能,指出了当前模型评估的局限性,并提出了一种数据中心的评估框架。该框架包括了从 Kaggle 竞赛中筛选出的 10 个相关数据集,以及针对每个数据集的专家级预处理管道和外部性能参考。通过实验,作者发现考虑数据集特定的预处理后,模型排名会发生显著变化,性能差距减小,模型选择的重要性降低。此外,作者还发现近期的模型尽管取得了显著进展,但仍然受益于手动特征工程。同时,作者指出许多表格数据竞赛具有时间特征,而测试时适应是一些看似静态竞赛中被忽视但重要的部分。

原理

本文的关键内容是提出了一种数据中心的评估框架,该框架包括了三个方面:

  1. 评估现实数据集:选择具有挑战性的数据集,不删除高基数分类特征等常见挑战方面。
  2. 数据集特定的专家预处理管道:包括标准化预处理、专家特征工程和测试时适应。
  3. 针对人类专家在隐藏测试集上的性能进行评估:使用 Kaggle 竞赛的排行榜作为外部性能参考。

通过这种评估框架,可以更全面地评估机器学习模型在表格数据上的性能,同时也可以更好地反映实际应用中的情况。

流程

  1. 数据集选择:从 Kaggle 竞赛中筛选出 10 个相关数据集,这些数据集具有挑战性和实际意义。
  2. 预处理管道:包括标准化预处理、专家特征工程和测试时适应。标准化预处理用于评估单个模型在最小数据集特定人力投入的情况下的性能;专家特征工程是从 Kaggle 中选择一个高性能的专家解决方案,并分离出数据准备部分;测试时适应是在测试数据上进行特征工程。
  3. 建模和评估:使用统一的建模管道和多种模型进行实验,并使用 Kaggle API 自动提交预测和检索性能结果。

应用

本文提出的数据中心评估框架可以应用于以下领域:

  1. 机器学习模型评估:可以更全面地评估机器学习模型在表格数据上的性能,为模型选择和优化提供参考。
  2. 数据预处理:可以帮助数据科学家更好地理解数据集的特点,选择合适的预处理方法,提高数据质量。
  3. 特征工程:可以帮助数据科学家更好地理解特征工程的重要性,选择合适的特征工程方法,提高模型性能。
  4. 测试时适应:可以帮助数据科学家更好地理解测试时适应的重要性,选择合适的测试时适应方法,提高模型的泛化能力。