利用大型语言模型克服教育文本数据中的不平衡问题:一种创新方法

Leveraging Prompts in LLMs to Overcome Imbalances in Complex Educational Text Data

摘要

本文探讨了在教育数据集中处理不平衡问题的挑战,特别是在学生开放式回答中不同认知参与水平的表现。传统的机器学习模型在处理这种复杂和微妙的数据时经常遇到困难,导致分析不足,尤其是在少数数据表示方面。本文的目标是研究使用增强断言的大型语言模型(LLMs)在处理不平衡教育数据集的复杂性方面的有效性,特别关注从学生文本中精确分类认知参与水平。研究通过比较LLMs与传统机器学习算法在处理不平衡教育数据方面的效果,以及断言集成对LLMs处理不平衡文本教育数据集挑战的具体贡献,来探索LLMs和断言在提高认知参与分类准确性和可靠性方面的潜力。

原理

本文采用了一种称为“迭代-ICL PE设计过程”的方法,通过比较传统机器学习模型与增强断言的LLMs(N=135)来评估其性能。在子集(n=27)上的敏感性分析检查了模型性能在分类指标和认知参与水平方面的差异。这一过程涉及使用基于断言的提示工程,比较传统机器学习模型与带有断言的LLMs在教育环境中从学生文本中分类认知参与的性能。研究发现,带有断言的LLMs在识别少数群体代表的认知参与水平方面显著优于传统机器学习模型,F1分数提高了32%。在子集上加入目标断言进一步增强了LLMs的性能,提高了11.94%,主要解决了理解上下文和解决学生回答中词汇歧义的错误。

流程

研究的工作流程包括数据收集、预处理、模型训练和评估。首先,从高中英语语言艺术课程的AI课程中收集学生对开放式问题的回答数据。然后,对数据进行清洗和预处理,包括去除非字母数字字符、转换为小写、去除停用词等。接下来,使用传统机器学习模型(如SVM、RF、DT和ADABoost)和带有断言的LLMs进行训练和测试。通过迭代修改和敏感性分析,优化提示工程设计,确保模型在处理不平衡教育数据时的最佳性能。最终,通过比较不同模型的性能指标(如精确度、召回率和F1分数)来评估模型的有效性。

应用

本文的研究结果表明,增强断言的LLMs在处理不平衡教育数据集方面具有优越能力,这不仅提高了分类认知参与水平的准确性,还为数据驱动的教育研究和实践开辟了新的途径。这些发现预示着在教育环境中采用先进的LLM技术,以实现对学生参与度的更细致和准确的分析,从而提高学习成果。未来的研究应进一步探索LLMs在更广泛教育环境中的能力,并研究其他方法来精炼和扩展其在分析复杂教育数据中的应用。