"无需新数据,自训练语言模型在算术推理中的突破"
摘要
本文探讨了在不增加新数据的情况下,通过自动反馈提高语言模型在算术推理任务中的能力。研究通过离线和在线两种自训练方式,比较了监督训练和偏好优化方法的效果。实验结果显示,自训练方法能够在不使用新数据的情况下显著提升模型的推理能力,尤其是在在线自训练中,偏好优化方法显示出比传统监督训练更高的稳定性和鲁棒性。
原理
本文的核心在于通过自训练(self-training)方法,利用模型自身的预测结果和自动反馈来提升语言模型在算术推理任务中的表现。自训练分为离线(offline)和在线(online)两种模式。在离线模式中,模型一次性生成所有预测,然后根据这些预测进行训练。而在线模式中,模型在训练过程中即时获取反馈并生成新的训练数据。偏好优化(Preference Optimization, PO)方法通过比较正确和错误的预测来训练模型,这种方法在在线自训练中显示出更高的稳定性和鲁棒性,尤其是在处理未见类型的问题时。
流程
在离线自训练中,模型首先从Ape210K数据集中抽取问题,生成16个预测,然后根据这些预测的正确性进行标注。在监督训练(SFT)中,只使用正确的预测进行训练,而在偏好优化(PO)中,使用正确和错误的预测对进行训练。在线自训练中,模型在训练过程中即时生成预测并获取反馈,这种方法允许模型在训练过程中不断调整和优化其预测策略。例如,在处理一个算术问题时,模型会生成多个预测,然后根据这些预测的正确性进行训练,从而逐步提升其推理能力。
应用
本文提出的自训练方法在算术推理任务中显示出巨大的潜力,尤其是在不需要额外数据的情况下提升模型的推理能力。这种方法可以广泛应用于教育、金融、工程等领域,帮助解决复杂的推理问题。此外,由于其不依赖于新数据,这种方法在数据稀缺或难以获取的场景中尤为有用。
