LayTextLLM:革新文档理解的大型语言模型整合布局与文本技术

A Bounding Box is Worth One Token: Interleaving Layout and Text in a Large Language Model for Document Understanding

摘要

本文探讨了在文档理解任务中,如何通过大型语言模型(LLMs)有效整合光学字符识别(OCR)衍生的文本与空间布局。传统的整合方法存在序列过长或未能充分利用LLMs的自回归特性等局限。为此,本文提出了LayTextLLM模型,该模型通过将每个边界框映射为一个单一嵌入并与文本交错,有效避免了长序列问题,同时充分利用了LLMs的自回归特性。LayTextLLM在关键信息提取(KIE)和视觉问答(VQA)任务中展现出显著的性能提升,相较于现有最先进的文档理解模型,KIE任务提升了27.0%,VQA任务提升了24.1%。

原理

LayTextLLM的核心创新在于其Spatial Layout Projector(SLP),它将空间布局的四个维度坐标映射为一个单一的嵌入令牌。这种方法通过减少输入令牌的数量,避免了传统坐标作为令牌方法带来的序列过长问题。SLP生成的边界框令牌与文本令牌交错输入到LLMs中,使得模型能够同时处理布局和文本信息,充分利用LLMs的自回归特性进行高效的文档理解。此外,LayTextLLM还引入了Layout-aware Next Token Prediction和Shuffled-OCR Supervised Fine-tuning两个训练任务,进一步增强了模型对布局和文本关系的理解及其在下游任务中的泛化能力。

流程

LayTextLLM的工作流程包括预处理、令牌化、模型训练和推理四个主要步骤。首先,通过OCR引擎提取文档图像中的文本和布局信息。然后,使用SLP将布局信息转换为边界框令牌,并与文本令牌一起进行令牌化处理。在模型训练阶段,LayTextLLM通过Layout-aware Next Token Prediction任务进行预训练,以增强布局与文本的关联理解,随后通过Shuffled-OCR Supervised Fine-tuning任务进行微调,以提高模型对输入令牌顺序变化的鲁棒性。在推理阶段,模型接收交错的文本和布局令牌,输出相应的问答结果或信息提取结果。

应用

LayTextLLM在文档理解领域具有广泛的应用前景,特别是在需要处理复杂布局和大量文本的场景中,如法律文档分析、财务报表解读、医疗记录处理等。其高效的布局与文本整合能力,使得模型能够在保持高准确率的同时,大幅提升处理速度和效率。随着模型的进一步优化和扩展,LayTextLLM有望成为文档自动化处理的重要工具,推动相关行业的智能化进程。