探索视频引发的评论情感分析:新任务、数据集与基线方法
摘要
本文介绍了一项新的研究任务——视频引发的评论多模态情感分析(MSA-CRVI),旨在根据微视频的评论响应推断观众的情感和情绪。现有视频多模态情感分析主要关注视频中人物的情感表达,而忽视了观众在观看视频时的情感反应。观众情感对于推断公众对视频的反应至关重要,广泛应用于分析公众社会情感、广告效果等领域。为此,作者手动标注了一个名为“微视频评论情感(CSMV)”的数据集,这是目前已知规模最大、视频时长最长的视频多模态情感数据集,包含107,267条评论和8,210个微视频,总时长68.83小时。为了推断评论的情感,作者提出了视频内容感知评论情感分析(VC-CSA)方法作为基线,通过大量实验证明该方法显著优于其他基线方法。
原理
VC-CSA方法的核心在于结合视频内容和评论文本进行情感分析。首先,使用预训练的I3D模型将视频编码为一组向量表示,作为原始时间视觉特征输入。评论文本则通过RoBERTa语言预训练模型编码,提取文本特征。VC-CSA方法包括三个主要模块:多尺度时间表示、共识语义学习和黄金特征接地。通过这些模块,方法能够有效地捕捉视频和评论之间的语义关联,从而更准确地推断评论中的情感和情绪。
流程
VC-CSA方法的工作流程如下:
- 视频内容通过I3D模型编码为时间视觉特征。
 - 评论文本通过RoBERTa模型编码为文本特征。
 - 多尺度时间表示模块捕捉视频在不同时间尺度的视觉特征。
 - 共识语义学习模块通过共识变换器捕捉视频和评论之间的共享语义。
 - 黄金特征接地模块通过两步法计算接地权重,过滤冗余信息,获取与评论相关的视频本质特征。
 - 融合模块将多尺度视频黄金特征与文本特征融合,生成视频上下文感知的评论语义特征。
 - 最终通过Softmax分类器推断评论对视频的情感和情绪。
 
应用
MSA-CRVI任务的应用前景广泛,包括但不限于:
- 公众社会情感分析
 - 广告效果评估
 - 社交媒体内容监控
 - 用户行为研究 通过深入分析视频和评论之间的情感关联,可以更好地理解公众情绪,优化内容策略,提升用户体验。
 
