"揭秘大型语言模型评估中的隐秘优势:测试任务训练的影响与调整"
摘要
本文探讨了大型语言模型评估中的一个基本问题,即“测试任务训练”(training on the test task)。与训练测试数据、数据泄露或数据污染等不当行为不同,测试任务训练是指在语言模型的预训练阶段包含与任务相关的数据的一系列技术。文章通过实验证明,测试任务训练会混淆相对模型评估和关于模型涌现能力的声明。为了解决这一问题,作者提出了一种有效的方法,即在评估前对每个模型进行相同的任务相关数据微调。实验结果显示,一旦调整了测试任务训练的影响,模型间的性能差异和涌现行为实例大多消失。这一研究对大型语言模型的基准测试和涌现能力研究具有广泛的影响。
Read more...








