VRDSynth:革新多语言视觉丰富文档信息提取的程序合成方法

VRDSynth: Synthesizing Programs for Multilingual Visually Rich Document Information Extraction

摘要

本文介绍了一种名为VRDSynth的新型程序合成方法,旨在自动生成程序以从多语言视觉丰富的文档(VRDs)中提取实体关系。商业领域经常需要从各种供应商的文档中查询视觉丰富的文档(如购买收据、医疗记录和保险表格)以做出明智的决策。现有的技术在处理新布局或需要大量预训练数据时存在局限性。VRDSynth通过引入一种新的领域特定语言(DSL)和一种新颖的合成算法,有效地捕捉文档实体之间的空间和文本关系,同时无需预训练数据,从而克服了这些限制。该方法在两个流行的VRD理解基准(FUNSD和XFUND)上进行了实验,证明了其在多语言环境下的优越性能。

原理

VRDSynth的核心创新在于其DSL和合成算法。DSL是一种上下文无关的语法,能够有效地表示实体之间的空间和文本关系,同时保持搜索程序的易处理性。合成算法利用实体之间频繁的空间关系来构建初始程序,通过等价减少来修剪搜索空间,并结合正、负和互斥程序来提高程序的覆盖率。该算法分为两个阶段:识别初始程序和迭代细化程序。初始程序通过挖掘训练文档中实体之间的频繁关系来构建,然后通过搜索文本、标签、位置或关系约束来进一步细化,以产生更精确的程序。

流程

VRDSynth的工作流程包括以下步骤:

  1. 使用DSL表示视觉丰富文档的实体和它们之间的关系。
  2. 通过合成算法构建初始程序,这些程序基于训练数据中实体之间的频繁关系。
  3. 迭代地细化这些程序,通过添加约束来提高其精确度。
  4. 结合正、负和互斥程序以产生最终的合成程序。 例如,在处理一个包含多个语言的文档集时,VRDSynth首先识别文档中的关键实体和它们的关系,然后生成程序来链接这些实体,最终在测试集上评估这些程序的性能。

应用

VRDSynth的应用前景广泛,特别是在需要从多语言视觉丰富文档中提取信息的商业和行政领域。由于其无需预训练数据且能够处理灵活布局的能力,VRDSynth可以显著提高信息提取的效率和准确性。此外,该方法的可扩展性意味着它可以进一步集成自动化表格识别等模块,以处理更复杂的文档结构。