SoftDedup:革新大型语言模型预训练的高效数据重加权方法
摘要
本文介绍了一种名为SoftDedup的高效数据重加权方法,旨在加速大型语言模型(LLMs)的预训练过程。该方法通过引入“数据共同性”这一概念,量化数据样本的重复程度,从而在保持数据集完整性的同时,减少高重复度数据的采样权重。实验结果显示,该方法显著提高了训练效率,减少了至少26%的训练步骤,同时提升了下游任务的准确性。此外,该方法在已经严格去重的数据集上也能持续提升性能,表明其具有补充现有去重方法并成为LLMs预训练标准流程的潜力。
Read more...








