探索HYBRINFOX:结合BERT与专家系统VAGO的主观性检测新方法

HYBRINFOX at CheckThat! 2024 – Task 2: Enriching BERT Models with the Expert System VAGO for Subjectivity Detection

摘要

本文介绍了HYBRINFOX团队在CLEF 2024 CheckThat!竞赛中解决任务2的方法,即主观性检测。该方法的独特之处在于使用了一个混合系统,结合了经过微调用于主观性检测的RoBERTa模型、用于捕捉语义的冻结句子BERT(sBERT)模型,以及由专家系统VAGO计算的多个分数,该系统独立开发,用于基于词汇测量文本中的模糊性和主观性。在英语评估数据上,HYBRINFOX方法以0.7442的宏观F1分数排名第一。对于其他语言,该方法通过翻译成英语的步骤,产生了更多混合的结果。本文解释了混合方法的原理,并概述了如何改进该方法以适用于英语以外的其他语言。

原理

HYBRINFOX方法的核心在于其混合系统的构建,该系统结合了深度学习模型和符号AI方法的优势。具体来说,系统使用了经过微调的RoBERTa模型来识别文本中的主观性,同时利用冻结的sBERT模型来捕捉文本的语义信息。此外,系统还引入了VAGO专家系统,该系统通过分析文本中的词汇来计算模糊性和主观性的分数。这些分数与BERT和sBERT的输出相结合,通过维度降低和线性分类层进行最终的主观性分类。这种混合方法不仅利用了深度学习模型的上下文理解能力,还结合了专家系统对文本中特定词汇的主观性评估,从而提高了整体检测的准确性和解释性。

流程

HYBRINFOX方法的工作流程包括以下几个关键步骤:首先,使用RoBERTa模型对文本进行编码,捕捉其主观性特征;其次,利用sBERT模型对文本进行语义编码,以增强对文本深层含义的理解;然后,通过VAGO专家系统计算文本的模糊性和主观性分数;最后,将这些分数与BERT和sBERT的输出进行维度降低和拼接,输入到分类层中进行最终的主观性判断。例如,在处理一篇新闻文章时,系统会首先分析文章的词汇和结构,然后结合语义信息和VAGO的分数来判断文章中的陈述是主观的还是客观的。

应用

HYBRINFOX方法的应用前景广泛,特别是在新闻和通信领域,该方法可以帮助检测和减少信息中的主观性和模糊性,从而提高信息的透明度和可信度。此外,该方法还可以应用于社交媒体监控、法律文档分析和教育内容评估等多个领域,帮助识别和处理含有主观性和模糊性的文本内容。随着该方法在多语言环境中的进一步优化和扩展,其应用范围将进一步扩大。