"STEP-DPO:革新大型语言模型的数学推理能力"

Step-DPO: Step-wise Preference Optimization for Long-chain Reasoning of LLMs

摘要

本文介绍了一种名为STEP-DPO的新方法,旨在优化大型语言模型(LLMs)在长链数学推理任务中的性能。数学推理对LLMs来说是一个重大挑战,因为需要精确且广泛的推理链来确保答案的正确性。传统的直接偏好优化(DPO)方法在处理长链数学推理时效果有限,因为它难以识别错误答案中的具体错误步骤。STEP-DPO通过将每个推理步骤作为偏好优化的基本单位,而不是整体评估答案,从而提供了更细粒度的过程监督。此外,本文还开发了一个数据构建流程,用于创建包含10K步骤偏好对的高质量数据集。实验结果表明,使用STEP-DPO方法可以在数学推理任务中显著提高模型的准确性,尤其是在处理复杂数学问题时。

原理

STEP-DPO的核心创新在于将每个推理步骤视为偏好优化的基本单位。与传统的DPO方法不同,DPO仅在整体答案层面进行偏好优化,而STEP-DPO则关注于每个推理步骤的正确性。具体来说,STEP-DPO通过最大化正确推理步骤的概率和最小化错误推理步骤的概率来优化模型。这种方法允许模型更容易地定位和纠正错误,从而显著提高长链推理的能力。此外,STEP-DPO使用自生成数据进行训练,这些数据在模型分布内(in-distribution),相比于由人类或GPT-4生成的数据(out-of-distribution),更能有效提高模型的性能。

流程

STEP-DPO的工作流程包括三个主要步骤:错误收集、步骤定位和纠正。首先,收集包含数学问题和正确答案的数据集,并使用初始模型生成推理步骤。然后,定位并记录每个错误推理结果中的第一个错误步骤。最后,通过模型自身生成正确的推理步骤来纠正错误。整个流程确保了数据集的高质量,并且通过步骤级的偏好优化,模型能够更有效地学习和改进其推理能力。例如,在处理一个数学问题时,模型会逐步推理并纠正每个步骤,直到得出最终的正确答案。

应用

STEP-DPO方法在数学教育、科学研究和工程设计等领域具有广泛的应用前景。通过提高LLMs在复杂数学问题上的推理能力,该方法可以帮助学生和研究人员更有效地解决数学难题,同时也为自动化数学问题解决系统提供了新的可能性。随着技术的进一步发展和优化,STEP-DPO有望成为提高LLMs推理能力的重要工具。