华侨大学学生打造“多模态自适应网络的抑郁水平智检系统”!

来源:   阅读:239559       时间:2024-03-12 13:39:18

国家经济的快速发展和生活节奏的加快,使得人们在工作、生活中承受了越来越大的压力。长期处于高压力状态下,人们的身体和心理会受到影响,从而导致抑郁症等精神健康问题的增加。同时能够提供专业心理咨询服务的心理咨询师不到3万人,具有极大的缺口。

基于此背景下,华侨大学创新创业实践团队研发了基于Transformer的多模态自适应网络的抑郁水平智检系统来应对这一现象。该系统是一个创新的心理健康评估工具。该系统结合音频、文字和视频等多种数据模态,利用Transformer模型和机器学习算法,实现对用户抑郁水平的智能检测和评估。

为了确保实验的科学性,团队通过招募了六十名自愿参与实验的志愿者,并于他们签订了保密协议。六十名志愿者涵盖了不同年龄段、不同性别、不同性格的群体,提高了实验的泛化性,确保团队的实验结果具有普适性。而后团队将六十名志愿者分为两组,一组为实验组、一组为对照组,两组各三十人。

实验组的志愿者团队主要是通过在学校的心理咨询中心放置易拉宝进行招募,他们的特点是大多数人曾经或者有意向主动寻求心理咨询;对照组的志愿者团队主要是从身边的朋友们入手,他们的特点是大多数人未曾寻求过心理咨询。

在实验开始之前,团队对所有参与者进行了详细的说明和指导,让他们充分了解实验的目的和流程,并获得他们的知情同意。在实验过程中,团队采用了严格的实验设计和控制,确保两组志愿者在实验条件和环境上的一致性。此外,团队还采用了双盲实验的方法,使得实验组和对照组的参与者和实验员都不知道自己所处的组别,以避免主观因素对实验结果的影响。

为了贴合AVEC 2019数据集,访谈形式完全仿照了AVEC 2019的访谈形式。为了避免人为因素对结果的潜在影响,团队采用了书面提问的形式,使受访者能够更加准确地理解问题。此外,实验过程中将访谈者置于独立安静的空间中,以消除访谈环境对结果的潜在影响。这样做有助于获取受访者真实回答问题时的状态,避免了外界环境对其表现的干扰。

在得到访谈视频之后,团队利用OpenFace对视频进行特征提取,利用OpenSMILE对音频进行特征提取,提取结果如下:

(1)音频特征

OpenSMILE:这是用于音频信号处理的工具集,专注于提取语音的声学特征,如音高、音量、语速、音色以及Mel频率倒谱系数(MFCC)等。这些特征能够反映说话人的情绪状态、压力水平等。

团队利用OpenSMILE工具对音频数据进行特征提取,其中包括语音的音调、节奏、强度等声学特征。

(2)视频特征

OpenFace:这是一个面部行为分析工具,它可以从视频中提取与面部相关的特征。OpenFace能够识别和分析面部特征如动作单元(AUs)、头部姿态、眼睛的运动和瞳孔的变化。通过这些数据,可以获得关于个体情绪状态和行为反应的深入了解。

团队使用OpenFace软件对视频数据中的面部表情和行为进行特征提取,可能包括面部动作单元(Action Units, AUs)、头部姿态、眼睛运动等信息。

将OpenFace和OpenSmile提取的特征分别输入到三个不同的全连接网络层(FC Blocks)。这些网络层被设计来处理特定类型的数据并执行特定的任务:

一个FC Block执行基于PHQ-8分数的回归任务,预测抑郁程度。

另一个FC Block执行5分类任务,其将抑郁程度分为五个不同的级别。

最后一个FC Block负责性别分类,这是为了探究性别与抑郁症状表现之间的关联。

在得到三种不同模态特征之后,团队运用了后期融合策略来融合每个特征的结果,做到了自适应地调整每种特征的权重。通过这种方法,团队可以更好地利用不同特征类型的信息,并根据其性能进行动态调整,以优化整体融合结果,得到更加具有科学性的检测结果。

这一系统未来将被引入更多的社会场景,如学校、企业、社区等,以造福广大民众。通过在各种社会环境中的部署,该系统可以帮助更多人识别和管理抑郁情绪,提供及时的干预和支持,从而减轻心理健康问题带来的影响,促进社会的健康与稳定。


THE END
本文系转载,版权归原作者所有;旨在传递信息,不代表淮北之窗的观点和立场。

相关热点