"揭秘假新闻:大型视觉-语言模型在检测与推理中的革命性应用"

Fake News Detection and Manipulation Reasoning via Large Vision-Language Models

摘要

本文由清华大学和中国科学院自动化研究所的研究团队提出,针对日益严重的假新闻问题,提出了一种新的多媒体研究课题——操纵推理(manipulation reasoning)。该研究不仅关注新闻的真实性分类,还深入探讨了基于新闻内容的详细伪造痕迹推理。为了支持这一研究,团队引入了一个名为“以人为中心和事实相关的假新闻”(HFFN)的基准,该基准强调人的中心性和高度事实相关性,并包含详细的手动标注。此外,研究团队还提出了一种多模态新闻检测和推理语言模型(M-DRUM),该模型不仅能判断多模态新闻的真实性,还能对潜在的操纵进行分析推理。通过全面的实验,该模型在假新闻检测和操纵推理方面表现出色,超越了现有的先进模型。

原理

M-DRUM模型的工作原理基于多模态特征提取和大型视觉-语言模型(LVLM)的推理生成。在特征提取层面,模型采用交叉注意力机制从多模态输入中提取细粒度的融合特征。在推理层面,LVLM作为骨干,促进与事实相关的推理。模型通过两阶段训练框架来激活识别和推理的能力。第一阶段是检测学习,模型在大规模多模态媒体操纵数据集上训练,以提高真实性分类的性能。第二阶段是推理学习,模型在精心标注的以人为中心和事实相关的假新闻检测基准上训练,以提高分析和推理能力。

流程

M-DRUM的工作流程包括以下步骤:首先,使用多模态编码器提取新闻图像和标题的视觉和文本特征。然后,通过交叉注意力机制获得多模态融合特征。接着,通过提示学习器(prompt learner)将操纵专业知识和LVLM的通用知识结合起来,LVLM生成分析推理。模型在两阶段框架下训练,以加强识别和推理的能力。具体示例中,模型能够分析新闻图像和文本中的操纵痕迹,并生成详细的推理结果。

应用

M-DRUM模型的应用前景广泛,特别是在社交媒体和新闻平台中,可以用于自动检测和分析假新闻,帮助用户识别和理解新闻内容的真实性和可信度。此外,该模型还可以应用于教育、法律和政府监管等领域,以提高信息安全和公众舆论的质量。