"创新的信息提取技术:从ESG报告表格中解锁量化事实"
摘要
本文由IBM Research Zurich和IBM Research Paris-Saclay的研究人员共同撰写,提出了一种名为“Statements”的新型数据结构,用于从环境、社会和治理(ESG)报告中的表格提取通用信息。这些报告通常包含有关气候变化、温室气体排放、水消耗等关键绩效指标(KPIs)的量化信息。由于表格结构和内容的高度可变性,信息提取变得非常困难。本文介绍了一种新的监督深度学习任务——“声明提取”,通过将表格转换为声明来解决这一问题。研究团队还引入了SemTabNet数据集,包含超过10万条注释表格,并开发了一系列基于T5的声明提取模型,其中最佳模型生成的声明与真实值相似度达到82%,远超基线模型的21%。此外,本文还展示了声明结构在大型ESG报告集合中进行探索性数据分析的优势。
Read more...








