"FineSurE:利用LLMs实现细粒度文本摘要评估的新前沿"

FineSurE: Fine-grained Summarization Evaluation using LLMs

摘要

本文介绍了FineSurE,一种利用大型语言模型(LLMs)进行细粒度摘要评估的新型自动化评估工具。FineSurE旨在解决传统评估方法如ROUGE与人类判断不一致的问题,通过引入完整性和简洁性标准,实现多维度的评估。该框架通过事实检查和关键事实对齐两个精细过程,提供比Likert量表评分更详细的评估。FineSurE在多个基准测试中显示出优于现有方法的性能,特别是在完整性和简洁性维度上。此外,该研究还探讨了不同LLM作为评估工具的性能,并展示了FineSurE在实际应用中的有效性。

原理

FineSurE的工作原理基于两个关键任务:事实检查和关键事实对齐。事实检查任务涉及识别每个摘要句子中的具体事实错误,并将其分类为九个类别之一,包括无错误、上下文外错误、实体错误等。关键事实对齐任务则关注于验证每个关键事实是否从摘要中推断出来,并指定所有相关摘要句子的行号。通过这两个任务的结果,FineSurE计算出精确的百分比分数,提供比传统Likert量表评分更细致的评估。这种细粒度的评估方法使得能够分析生成文本的质量问题,不仅在句子层面,还在关键事实层面。

流程

FineSurE的工作流程包括以下步骤:

  1. 事实检查:使用LLMs对每个摘要句子进行事实检查,识别并分类事实错误。
  2. 关键事实对齐:验证每个关键事实是否在摘要中得到体现,并记录相关摘要句子的行号。
  3. 评分计算:根据事实检查和关键事实对齐的结果,计算 faithfulness、completeness 和 conciseness 的百分比分数。 例如,在具体示例中,FineSurE框架通过事实检查识别出摘要句子中只有一个句子是事实正确的,因此 faithfulness 得分为33%。通过关键事实对齐,发现四个关键事实中有三个与摘要对齐,因此 completeness 得分为75%。

应用

FineSurE的应用前景广泛,特别是在需要高度自动化和细粒度评估的文本摘要领域。它可以用于改进摘要模型的发展,通过提供更精确的反馈来优化模型输出。此外,FineSurE的多维度评估能力使其适用于多种类型的文本生成任务,包括新闻、科技、医疗等领域的摘要生成。随着LLMs的不断进步,FineSurE有望成为文本摘要评估的标准工具,推动相关技术的进一步发展。