探索抑郁症检测的新前沿:LMVD数据集与MDDformer架构

LMVD: A Large-Scale Multimodal Vlog Dataset for Depression Detection in the Wild

摘要

本文介绍了一种名为LMVD的大型多模态Vlog数据集,用于在自然环境中检测抑郁症。该数据集包含1823个样本,总计214小时,来自1475名参与者,从四个多媒体平台(新浪微博、Bilibili、Tiktok和YouTube)收集。论文提出了一种新的架构MDDformer,用于学习个体的非言语行为。通过在LMVD数据集上进行广泛的验证,展示了其在抑郁症检测方面的优越性能。预计LMVD将为抑郁症检测领域提供宝贵的功能。

原理

MDDformer架构的核心在于利用Transformer模块学习音频和视频特征中的潜在特征,并通过注意力多模态特征融合机制捕捉非言语模式。音频特征通过预训练的VGGish模型提取,视觉特征包括面部动作单元(FAUs)、地标、眼动和头部姿态。MDDformer通过多模态特征融合,有效地结合了音频和视频信息,提高了抑郁症检测的准确性。

流程

论文首先从四个多媒体平台收集与抑郁症相关的Vlog视频,然后通过志愿者和临床医生的协作进行视频的清洗和标注。接着,从视频中提取音频和视觉特征,最后使用MDDformer架构进行多模态特征融合和抑郁症的预测。例如,通过提取的音频特征和视觉特征,MDDformer能够识别出与抑郁症相关的非言语行为模式,从而进行准确的抑郁症检测。

应用

LMVD数据集和MDDformer架构的应用前景广泛,可以在临床医疗、心理健康监测、社交媒体分析等多个领域发挥作用。随着数据集的公开和技术的进一步发展,预计将推动抑郁症检测技术的进步,提高抑郁症的早期诊断和干预效率。