**惊呆了!LLM 竟能轻松搞定特征选择**

LLM-Select: Feature Selection with Large Language Models

摘要

本文介绍了一项关于大型语言模型(LLM)在特征选择方面的研究。该研究展示了 LLM 在处理监督学习任务中的惊人能力:在不需要访问下游训练数据的情况下,根据输入的特征名称和预测任务的描述,从众多特征中选择出最具预测性的特征。

原理

该方法通过在输入概念和目标概念上进行条件化,利用 LLM 生成的输出结果来选择特征。具体来说,作者提出了三种使用 LLM 进行特征选择的方法:

  1. 基于 LLM 生成的特征重要性得分进行选择:通过提示 LLM 为每个特征生成一个重要性得分,根据得分进行特征选择。
  2. 基于 LLM 生成的特征排名进行选择:通过提示 LLM 为所有输入特征生成排名,根据排名进行特征选择。
  3. 通过与 LLM 进行对话逐步选择特征:通过逐步提示 LLM 添加新的特征,以最大化交叉验证性能,直到选择出所需数量的特征。

流程

  1. 数据准备:准备包含特征和目标变量的数据集。
  2. 确定候选特征:从数据集中确定需要进行选择的候选特征。
  3. 选择特征选择方法:根据具体需求选择上述三种方法之一进行特征选择。
  4. 特征评估:使用下游预测模型评估所选特征的性能。
  5. 结果分析:根据评估结果分析所选特征的优劣,并可进行进一步的优化。

应用

LLM 在特征选择方面的应用具有广泛的前景,尤其是在数据收集成本高昂的领域,如医疗保健和社会科学。通过使用 LLM 进行特征选择,可以在数据收集阶段就确定最有价值的特征,从而降低数据收集成本,提高模型性能。