探索Planetarium：严格基准推动自然语言到PDDL转换的进步

Posted on 2024-07-03 in CS.AI • 10 words • 1 minute read

Last updated on 2024-07-05

摘要

本文介绍了一项关于使用大型语言模型（LLMs）解决规划问题的研究，特别是将自然语言描述的规划任务转换为结构化规划语言（如PDDL）的方法。尽管这种方法具有潜力，但准确评估生成的PDDL代码的质量仍然是一个挑战。现有的评估方法主要依赖于规划验证器，这些验证器只能检查生成的代码是否可以被规划器解决，而不能确保代码与自然语言描述的任务一致。此外，现有的评估集往往包含与真实PDDL非常相似的自然语言描述，降低了任务的难度。为了解决这些问题，本文引入了Planetarium基准，旨在评估语言模型从自然语言描述生成PDDL代码的能力。该基准通过创建一个PDDL等价算法来严格评估生成的PDDL代码的正确性，并提供了一个包含132,037个文本到PDDL对的数据集，涵盖13个不同难度的任务。最后，本文评估了多个API访问和开源语言模型，揭示了这一任务的复杂性，并强调了需要更严格的基准来评估这一问题。

原理

Planetarium基准的核心在于其严格的PDDL等价算法，该算法通过灵活地比较生成的PDDL代码与真实PDDL代码来评估其正确性。该算法首先将PDDL代码转换为场景图，然后计算目标状态的扩展，并进行图同构检查。具体来说，算法将PDDL代码转换为场景图，这些场景图代表了初始状态和目标状态。然后，算法通过添加所有必然为真的边缘来完全指定目标场景图。最后，算法将初始状态场景图与每个目标状态图合并为问题图，并检查对象之间的双射是否使得问题图同构。这种方法确保了两个PDDL问题只有在它们代表相同的底层规划问题时才匹配。此外，该算法在两个领域（Blocks World和Gripper）中实现了实际高效的运行。

流程

Planetarium基准的工作流程包括两个主要组件：一个算法，用于验证真实PDDL问题文件和LLM生成的PDDL问题文件是否等价；以及一个策划的数据集，用于评估LLM。算法首先将每个PDDL问题文件转换为两个场景图：一个用于初始状态，另一个用于目标状态。然后，算法通过添加所有必然为真的边缘来完全指定目标场景图。最后，算法将初始状态场景图与每个目标状态图合并为问题图，并检查对象之间的双射是否使得问题图同构。数据集包括132,037个文本到PDDL对，涵盖13个不同难度的任务，每个任务在抽象性和大小两个维度上有所不同。

应用

Planetarium基准的应用前景广泛，特别是在确保自然语言到结构化规划语言转换的正确性方面。如果这种转换方法被广泛采用，但其评估仍然不准确，系统可能会产生误导性或不一致的结果，如果在实际操作中被采纳，可能会造成伤害。Planetarium通过考虑PDDL语义和经典规划问题的固有结构，强调了评估转换正确性的重要性。此外，该基准目前仅支持Blocks World和Gripper领域，未来扩展到更多表达性领域将扩大其应用范围。同样，目前仅限于PDDL的STRIPS子集，扩展到更表达性的子集将允许评估更复杂、现实世界的规划问题。