"STEP-DPO:革新大型语言模型的数学推理能力"
摘要
本文介绍了一种名为STEP-DPO的新方法,旨在优化大型语言模型(LLMs)在长链数学推理任务中的性能。数学推理对LLMs来说是一个重大挑战,因为需要精确且广泛的推理链来确保答案的正确性。传统的直接偏好优化(DPO)方法在处理长链数学推理时效果有限,因为它难以识别错误答案中的具体错误步骤。STEP-DPO通过将每个推理步骤作为偏好优化的基本单位,而不是整体评估答案,从而提供了更细粒度的过程监督。此外,本文还开发了一个数据构建流程,用于创建包含10K步骤偏好对的高质量数据集。实验结果表明,使用STEP-DPO方法可以在数学推理任务中显著提高模型的准确性,尤其是在处理复杂数学问题时。
Read more...








