探索Planetarium:严格基准推动自然语言到PDDL转换的进步

Planetarium: A Rigorous Benchmark for Translating Text to Structured Planning Languages

摘要

本文介绍了一项关于使用大型语言模型(LLMs)解决规划问题的研究,特别是将自然语言描述的规划任务转换为结构化规划语言(如PDDL)的方法。尽管这种方法具有潜力,但准确评估生成的PDDL代码的质量仍然是一个挑战。现有的评估方法主要依赖于规划验证器,这些验证器只能检查生成的代码是否可以被规划器解决,而不能确保代码与自然语言描述的任务一致。此外,现有的评估集往往包含与真实PDDL非常相似的自然语言描述,降低了任务的难度。为了解决这些问题,本文引入了Planetarium基准,旨在评估语言模型从自然语言描述生成PDDL代码的能力。该基准通过创建一个PDDL等价算法来严格评估生成的PDDL代码的正确性,并提供了一个包含132,037个文本到PDDL对的数据集,涵盖13个不同难度的任务。最后,本文评估了多个API访问和开源语言模型,揭示了这一任务的复杂性,并强调了需要更严格的基准来评估这一问题。

原理

Planetarium基准的核心在于其严格的PDDL等价算法,该算法通过灵活地比较生成的PDDL代码与真实PDDL代码来评估其正确性。该算法首先将PDDL代码转换为场景图,然后计算目标状态的扩展,并进行图同构检查。具体来说,算法将PDDL代码转换为场景图,这些场景图代表了初始状态和目标状态。然后,算法通过添加所有必然为真的边缘来完全指定目标场景图。最后,算法将初始状态场景图与每个目标状态图合并为问题图,并检查对象之间的双射是否使得问题图同构。这种方法确保了两个PDDL问题只有在它们代表相同的底层规划问题时才匹配。此外,该算法在两个领域(Blocks World和Gripper)中实现了实际高效的运行。

流程

Planetarium基准的工作流程包括两个主要组件:一个算法,用于验证真实PDDL问题文件和LLM生成的PDDL问题文件是否等价;以及一个策划的数据集,用于评估LLM。算法首先将每个PDDL问题文件转换为两个场景图:一个用于初始状态,另一个用于目标状态。然后,算法通过添加所有必然为真的边缘来完全指定目标场景图。最后,算法将初始状态场景图与每个目标状态图合并为问题图,并检查对象之间的双射是否使得问题图同构。数据集包括132,037个文本到PDDL对,涵盖13个不同难度的任务,每个任务在抽象性和大小两个维度上有所不同。

应用

Planetarium基准的应用前景广泛,特别是在确保自然语言到结构化规划语言转换的正确性方面。如果这种转换方法被广泛采用,但其评估仍然不准确,系统可能会产生误导性或不一致的结果,如果在实际操作中被采纳,可能会造成伤害。Planetarium通过考虑PDDL语义和经典规划问题的固有结构,强调了评估转换正确性的重要性。此外,该基准目前仅支持Blocks World和Gripper领域,未来扩展到更多表达性领域将扩大其应用范围。同样,目前仅限于PDDL的STRIPS子集,扩展到更表达性的子集将允许评估更复杂、现实世界的规划问题。