探索LLMs在电子表格公式生成中的应用：验证合成数据的新方法

Posted on 2024-07-15 in CS.AI • 24 words • 1 minute read

Last updated on 2024-07-16

摘要

本文探讨了在电子表格中生成公式时，如何利用大型语言模型（LLMs）生成合成自然语言描述，并验证这些描述的准确性以进行微调。由于相关公式资源稀缺，影响了预训练模型的基础性能和微调能力。本文通过定义三个代理目标（输出预测、替代代码生成和分类）来预测合成自然语言的准确性，并展示了在不同模型上进行微调时，验证过的合成数据集如何提高性能。实验结果表明，使用验证过的数据进行微调可以显著提高模型在生成公式任务上的表现，并减少训练时间。

原理

本文的核心在于利用LLMs生成合成自然语言描述，并通过三个代理目标来验证这些描述的准确性。具体来说，这三个代理目标包括：

输出预测（VO）：直接从自然语言描述和表格数据中预测公式输出，并通过元素级行比较来评估正确性。
替代代码生成（VP）：从自然语言描述和表格数据中预测Python程序，并比较程序执行结果与公式输出。
分类（VC）：直接判断自然语言描述是否准确描述了公式和表格数据。这些验证方法利用了LLMs的文本生成能力和对编程语言的理解，通过这些方法筛选出的高质量合成数据集用于模型微调，从而提高模型在NL-to-Formula任务上的性能。

流程

数据采集：从公开的Excel工作簿中挖掘满足定义的派生列公式（T, F）对。
数据标注：使用GPT-4为每个（T, F）对生成自然语言描述（U）。
数据验证：应用三种验证方法（VO, VP, VC）来判断生成的自然语言描述是否准确。
模型微调：使用验证过的数据集对不同模型（Phi-2, Mistral, GPT-35-turbo, GPT-4）进行微调。
性能评估：使用pass@k指标评估模型在SOFSET基准测试上的性能。例如，GPT-4在经过VP验证的数据集上微调后，评估得分提高了25%，训练时间减少了23%。

应用

本文提出的方法不仅提高了电子表格中公式生成的准确性和效率，还为未来在NL-to-Formula任务上的研究提供了新的数据集和验证策略。此外，这种方法可以扩展到其他需要自然语言与代码或公式转换的领域，如编程辅助工具、数据分析自动化等。