探索大型语言模型的数学推理能力:MathCAMPS框架的先进性与应用前景
摘要
本文介绍了一种名为MathCAMPS的新型数学问题合成框架,该框架旨在从人类课程中细粒度地合成高质量的数学问题。MathCAMPS基于K-8年级的数学共同核心(CC)标准,通过形式化语法生成多样化的符号问题及其答案,并利用大型语言模型(LLMs)将这些符号问题转化为自然语言问题。此外,论文提出了一种循环一致性方法来验证问题的忠实度,并引入了数学对话任务,通过后续问题深入探测模型的理解能力。实验结果显示,即使在最强大的模型中,也存在令人惊讶的失败案例,尤其是在回答简单的后续问题时。此外,论文还评估了Pythia 12B在MathCAMPS上的训练检查点,分析了特定数学技能在训练过程中的发展情况。MathCAMPS框架的提出,为社区提供了一个低成本的工具,用于生成和扩展高质量的数据集,进一步推动了LLMs在数学推理能力上的研究和应用。
Read more...








