VRDSynth：革新多语言视觉丰富文档信息提取的程序合成方法

Posted on 2024-07-09 in CS.AI • 13 words • 1 minute read

Last updated on 2024-07-10

摘要

本文介绍了一种名为VRDSynth的新型程序合成方法，旨在自动生成程序以从多语言视觉丰富的文档（VRDs）中提取实体关系。商业领域经常需要从各种供应商的文档中查询视觉丰富的文档（如购买收据、医疗记录和保险表格）以做出明智的决策。现有的技术在处理新布局或需要大量预训练数据时存在局限性。VRDSynth通过引入一种新的领域特定语言（DSL）和一种新颖的合成算法，有效地捕捉文档实体之间的空间和文本关系，同时无需预训练数据，从而克服了这些限制。该方法在两个流行的VRD理解基准（FUNSD和XFUND）上进行了实验，证明了其在多语言环境下的优越性能。

原理

VRDSynth的核心创新在于其DSL和合成算法。DSL是一种上下文无关的语法，能够有效地表示实体之间的空间和文本关系，同时保持搜索程序的易处理性。合成算法利用实体之间频繁的空间关系来构建初始程序，通过等价减少来修剪搜索空间，并结合正、负和互斥程序来提高程序的覆盖率。该算法分为两个阶段：识别初始程序和迭代细化程序。初始程序通过挖掘训练文档中实体之间的频繁关系来构建，然后通过搜索文本、标签、位置或关系约束来进一步细化，以产生更精确的程序。

流程

VRDSynth的工作流程包括以下步骤：

使用DSL表示视觉丰富文档的实体和它们之间的关系。
通过合成算法构建初始程序，这些程序基于训练数据中实体之间的频繁关系。
迭代地细化这些程序，通过添加约束来提高其精确度。
结合正、负和互斥程序以产生最终的合成程序。例如，在处理一个包含多个语言的文档集时，VRDSynth首先识别文档中的关键实体和它们的关系，然后生成程序来链接这些实体，最终在测试集上评估这些程序的性能。

应用

VRDSynth的应用前景广泛，特别是在需要从多语言视觉丰富文档中提取信息的商业和行政领域。由于其无需预训练数据且能够处理灵活布局的能力，VRDSynth可以显著提高信息提取的效率和准确性。此外，该方法的可扩展性意味着它可以进一步集成自动化表格识别等模块，以处理更复杂的文档结构。