增强语言模型:结合结构化信息提升可核查性估计的先进方法
摘要
本文由HYBRINFOX团队在CheckThat! 2024 - Task 1竞赛中提交,主要探讨了如何通过结合结构化信息来增强语言模型(如RoBERTa)在可核查性估计任务中的表现。文章提出了一种方法,通过从文本句子中提取的三元组(主体; 谓词; 客体)生成嵌入,以此来丰富语言模型的表示。实验结果显示,这种方法在英语数据上表现最佳,F1分数达到71.1,排名第12位。未来研究方向包括将此处理流程适应于更新的巨型语言模型。
原理
本文提出的方法通过结合语言模型(如RoBERTa)和从文本中提取的结构化信息(三元组)来提高可核查性估计的准确性。具体来说,首先使用RoBERTa模型对文本进行嵌入,生成768维的嵌入向量。同时,利用Open Information Extraction系统(如OpenIE6)从文本中提取三元组,每个三元组的每个部分(主体、谓词、客体)通过fastText进行编码,生成300维的向量。这些向量经过密集层处理后,通过ReLU激活函数进行处理,并最终平均合并成768维的嵌入向量。最后,将语言模型和三元组的嵌入向量进行拼接,通过密集层和sigmoid激活函数输出可核查性的概率。这种方法的先进性在于它不仅利用了语言模型的强大文本理解能力,还通过结构化信息增强了模型对文本中事实性内容的识别能力。
流程
本文的工作流程包括以下几个步骤:
- 使用RoBERTa模型对输入文本进行嵌入,生成768维的嵌入向量。
 - 同时,使用OpenIE6系统从文本中提取三元组,每个三元组的每个部分通过fastText进行编码,生成300维的向量。
 - 这些向量经过密集层处理后,通过ReLU激活函数进行处理,并最终平均合并成768维的嵌入向量。
 - 将语言模型和三元组的嵌入向量进行拼接,通过密集层和sigmoid激活函数输出可核查性的概率。 例如,对于句子“I must remind him the Democrats have controlled the Congress for the last twenty-two years and they wrote all the tax bills.”,OpenIE6提取了三个三元组,其中两个包含可核查的信息。这些三元组通过fastText编码后,与RoBERTa的嵌入向量拼接,最终用于分类。
 
应用
本文提出的方法在可核查性估计任务中显示出良好的应用前景,特别是在需要对大量文本进行快速准确的事实核查的场景中,如社交媒体监控、新闻内容审核等。此外,该方法的可扩展性使其能够适应多种语言和不同类型的文本数据,为多语言环境下的信息质量评估提供了有效的解决方案。
