“分子事实:优化大型语言模型事实验证的新策略”

Molecular Facts: Desiderata for Decontextualization in LLM Fact Verification

摘要

本文探讨了大型语言模型(LLM)生成内容的事实验证问题,特别是在原子事实的上下文处理方面。文章提出了“分子事实”的概念,旨在通过去上下文化和最小化两个标准来优化事实验证过程。分子事实能够在保持原子性的同时,提供足够的上下文信息以正确解释和验证事实。文章通过实验展示了分子事实在处理模糊实体引用和提高事实验证准确性方面的有效性。

原理

分子事实的工作原理基于两个关键标准:去上下文化和最小化。去上下文化要求事实在独立解释时能够唯一指定实体、事件和其他上下文,确保事实的可解释性。最小化则要求在实现去上下文化的同时,尽量减少额外信息的添加,以简化验证过程。通过这两个标准的平衡,分子事实能够在保持信息完整性的同时,提高事实验证的效率和准确性。

流程

分子事实的生成流程包括两个阶段:首先,识别声明中的主要主题,并评估其潜在的模糊性;其次,利用识别的模糊性标准和声明的上下文,生成去上下文化的分子事实。例如,对于声明“Ann Jansson赢得了欧洲田径锦标赛的奖牌”,分子事实可能会被重写为“Ann Jansson,一位瑞典前足球运动员,赢得了1986年欧洲田径锦标赛的奖牌”。这样的重写不仅提供了足够的上下文信息,还保持了声明的原子性。

应用

分子事实的应用前景广泛,特别是在需要高度准确性和可靠性的领域,如新闻报道、法律文件和技术文档。通过使用分子事实,可以显著提高自动事实验证系统的性能,减少因上下文缺失或信息过载导致的错误。此外,分子事实的概念也为未来在更复杂和多变的语言环境中的事实验证研究提供了新的方向。