"创新的信息提取技术:从ESG报告表格中解锁量化事实"

Statements: Universal Information Extraction from Tables with Large Language Models for ESG KPIs

摘要

本文由IBM Research Zurich和IBM Research Paris-Saclay的研究人员共同撰写,提出了一种名为“Statements”的新型数据结构,用于从环境、社会和治理(ESG)报告中的表格提取通用信息。这些报告通常包含有关气候变化、温室气体排放、水消耗等关键绩效指标(KPIs)的量化信息。由于表格结构和内容的高度可变性,信息提取变得非常困难。本文介绍了一种新的监督深度学习任务——“声明提取”,通过将表格转换为声明来解决这一问题。研究团队还引入了SemTabNet数据集,包含超过10万条注释表格,并开发了一系列基于T5的声明提取模型,其中最佳模型生成的声明与真实值相似度达到82%,远超基线模型的21%。此外,本文还展示了声明结构在大型ESG报告集合中进行探索性数据分析的优势。

原理

本文提出的“Statements”数据结构是一种树状结构,能够将复杂、不规则和异构的信息映射到一个统一的、域无关的结构中。每个声明从根节点分支出来,包含多个谓词节点,每个谓词节点携带一个原子量化信息。这种结构允许我们以一种同质的方式表示信息,使得从表格中提取信息的问题转变为翻译问题,即从原始表格翻译成一组声明。通过引入树编辑距离(TED)和树相似度评分(ts),可以量化模型生成的声明与真实声明之间的相似度。最佳模型通过微调T5模型实现,显示出显著的性能提升。

流程

声明提取的工作流程包括直接提取和间接提取两种方法。直接提取方法中,模型直接从表格生成声明;间接提取方法中,模型首先预测表格单元格的标签,然后使用基于规则的方法构建声明。研究团队进行了三种序列到序列的实验:直接声明提取(SE Direct)、间接声明提取1D(SE Indirect 1D)和间接声明提取2D(SE Indirect 2D)。实验结果显示,间接2D方法在实体提取和关系提取方面表现最佳,平均树相似度评分达到81.76%。

应用

本文提出的声明提取方法不仅适用于ESG报告,还可以扩展到其他领域,如科学研究、金融分析等。声明的同质结构使得大规模数据分析和下游任务(如问答、事实核查、表格检索等)成为可能。此外,声明数据集的开放源代码和数据链接为未来的研究和开发提供了宝贵的资源。