华侨大学学生打造“多模态自适应网络的抑郁水平智检系统”！

来源：阅读：239559 时间:2024-03-12 13:39:18

新闻

国家经济的快速发展和生活节奏的加快,使得人们在工作、生活中承受了越来越大的压力。长期处于高压力状态下,人们的身体和心理会受到影响,从而导致抑郁症等精神健康问题的增加。同时能够提供专业心理咨询服务的心理咨询师不到3万人,具有极大的缺口。

基于此背景下,华侨大学创新创业实践团队研发了基于Transformer的多模态自适应网络的抑郁水平智检系统来应对这一现象。该系统是一个创新的心理健康评估工具。该系统结合音频、文字和视频等多种数据模态,利用Transformer模型和机器学习算法,实现对用户抑郁水平的智能检测和评估。

为了确保实验的科学性,团队通过招募了六十名自愿参与实验的志愿者,并于他们签订了保密协议。六十名志愿者涵盖了不同年龄段、不同性别、不同性格的群体,提高了实验的泛化性,确保团队的实验结果具有普适性。而后团队将六十名志愿者分为两组,一组为实验组、一组为对照组,两组各三十人。

实验组的志愿者团队主要是通过在学校的心理咨询中心放置易拉宝进行招募,他们的特点是大多数人曾经或者有意向主动寻求心理咨询;对照组的志愿者团队主要是从身边的朋友们入手,他们的特点是大多数人未曾寻求过心理咨询。

在实验开始之前,团队对所有参与者进行了详细的说明和指导,让他们充分了解实验的目的和流程,并获得他们的知情同意。在实验过程中,团队采用了严格的实验设计和控制,确保两组志愿者在实验条件和环境上的一致性。此外,团队还采用了双盲实验的方法,使得实验组和对照组的参与者和实验员都不知道自己所处的组别,以避免主观因素对实验结果的影响。

为了贴合AVEC 2019数据集,访谈形式完全仿照了AVEC 2019的访谈形式。为了避免人为因素对结果的潜在影响,团队采用了书面提问的形式,使受访者能够更加准确地理解问题。此外,实验过程中将访谈者置于独立安静的空间中,以消除访谈环境对结果的潜在影响。这样做有助于获取受访者真实回答问题时的状态,避免了外界环境对其表现的干扰。

在得到访谈视频之后,团队利用OpenFace对视频进行特征提取,利用OpenSMILE对音频进行特征提取,提取结果如下:

(1)音频特征

OpenSMILE:这是用于音频信号处理的工具集,专注于提取语音的声学特征,如音高、音量、语速、音色以及Mel频率倒谱系数(MFCC)等。这些特征能够反映说话人的情绪状态、压力水平等。

团队利用OpenSMILE工具对音频数据进行特征提取,其中包括语音的音调、节奏、强度等声学特征。