情感测试简介

首页 » 常识 » 常识 » 这个AI面前,你再也没法演好情绪稳定的成
TUhjnbcbe - 2023/10/12 23:36:00

作者

杜算子

到底谁的蓝牙名叫一只老母猪!

每次我开蓝牙,系统就提示一只老母猪要和你配对!

当你看到网上的这则笑话,“咯咯”笑得像只鸡一样,和你看着同样笑话的小伙伴就像看傻子一样看着你,你想不想送他份PHQ问卷…

图1PHQ问卷

PHQ问卷是美国心理协会设计的,能判断对方的心理健康状态,一般要在心理咨询师的帮助下完成。

或多或少的情绪问题是现代人的通病。可能是不重视,抑或是因为他人眼光或者高昂的心理咨询费用,大部分人都不得不隐藏起了那份“抑郁”。

深深理解广大群众需求的研究人员决定要让大家都能检测到心理健康状态,将问卷自动化。方法一般有两种:根据特定问题(如“你有抑郁史吗?”)的回答进行筛选;或者通过构建决策树形式的问答来对抑郁进行建模。但是这两种研究形式都只能针对限定条件的问题类型。

怎样摆脱这种特定问题类型呢?近期MIT的研究人员做了一系列研究…

他们从生活中得到了一些启示,“一个人是快乐的、兴奋的、悲伤的,或者有一些严重的认知状况,比如抑郁,都是通过他们的语言表现出来的”,然后利用深度学习框架集成了音频、文本和视频特性,进行抑郁检测实验,让你在自然对话的状态下就能被检测出心理健康状态。

他们邀请名受访者,通过人工控制虚拟代理的方式,向受访者提问一些问题(参考DAIC语料库),受访者可以自由回答(没有A、B、C、D可供选择)。比如:

你好吗?你认为自己是个内向的人吗?……并收集对话反馈,比如:

我明白了。听起来不错。……人工智能事先对这些问题一无所知,它们从语言线索中识别抑郁。

什么是DAIC语料库?

DAIC(DistressAnalysisInterviewCorpus)是半结构化临床访谈的集合。这些访谈被设计成一个标准方案来创建一个计算机代理,对人们进行访谈,来模拟识别有创伤后应激障碍(PTSD)和重度抑郁症风险的人。

DAIC主要包含了四种访谈方式:

Face-to-face(顾名思义,是受访者和采访者之间的面对面访谈形式)。Teleconference(翻译过来就是电话会议,通过电话会议系统进行访谈)。Wizard-of-Oz(虚拟面试官——被真人面试官控制,与受访者交流的形式)。Automate(虚拟面试官完全自动化地与受访者进行交流)。

图2Wizard-of-Oz

MIT将这名受访者的数据被分成了训练,开发和测试集,以得到建模对象的二元状态(是否抑郁)和他们抑郁的严重程度。严重程度参考DAIC数据集中预先定义的PHQ问卷,根据总得分0-27进行判断。每4分为一个程度级别,15分以上可以评价为抑郁。最终,在数据集中,名受试者中有28人被标记为“抑郁”。

研究人员主要通过三组模型来预测抑郁。针对那些被测者,建立个相互作用的序列模型,从其音频和文本数据中进行特征提取来进行判断。

正则划的逻辑回归模型

首先,研究人员为正则化的逻辑回归模型提供了个音频和个文本特征。

音频

对于音频变量,研究人员借助免费的语音处理算法库COVAREP,该库包含帧级对象(光谱、韵和声音质量),且均为高阶统计信息(包含平均值、最大值、最小值、中位数、标准差、偏度和峰度)。所有特征均采用零均值和方差归一化,任何没有音频信息的片段均设为零。并且排除没有统计学意义的结果。

文本

研究人员使用PythonGensim库的Doc2Vec对文本特征进行训练,先让我们来认识一下Doc2Vec包。

Doc2vec是Google在年基于Word2vec的基础上发展而来的基于深度学习思想的工具。Word2vec在分析微博等短文的情感倾向中效果很好,但是分析大段落文本时会忽略上下文等丢掉很多重要信息,而Doc2vec在这方面做的很好。

它和Word2vec的区别就是,除了单词向量之外,还包含了段落嵌入来捕捉关键信息。

通过这种方式,Doc2vec可以捕捉同一词在不同语境中的区别。例如,“leaves”应用在以下两个句子:

Manosleavestheofficeeverydayat18:00tocatchhistrain(马诺斯每天18:00离开办公室去赶火车)ThisseasoniscalledFall,becauseleavesfallfromthetrees.(这个季节叫秋天,因为树叶从树上掉下来)在一个简单的Word2Vec模型中,这个词在两个句子中有完全相同的表示,而在Doc2Vec中则不是。

接下来,让我们看一下对于该模型研究人员如何进行训练。

图3使用Doc2Vec对于文本数据的训练参数

加权模型

接着在第一个正则化逻辑回归模型的基础上,根据所问问题的类型进行调整,并基于在训练集中发现的问题的预测能力进行加权。既然是加权模型,就涉及到如何进行权重的分配。

在数据集中,每个对象都是一组潜在问题的查询Q中被查询到的一个子集qi。将查询响应表示为一个矩阵,每个响应矩阵都有相应的二进制向量结果表示抑郁。将响应矩阵连接到一个训练矩阵和开发矩阵,用C(j)表示训练模型的表现(j∈{1:Q}),对C(j)高于某一阈值θ的信息序列子集,分配权重等于C(j)。这些权重与逻辑回归模型f结合使用,以提供抑郁症的问题加权概率p,即抑郁概率。

图4加权模型的抑郁概率

序列建模——LSTM模型

研究人员还用LSTM模型进行了研究。我们再来了解一下LSTM(LongShort-TermMemory双向长短时记忆)神经网络。

网上有个例子说有个句子“IgrewupinFrance…Ispeakfluent__”,猜横线上应该填什么。

我出生在法国,说什么语言很流利?那肯定是法语!答案就应该是“French”,可是如果我没告诉你我生在法国,那这题就成了个迷…所以France这个关键的国籍信息是不可少的。

在实际应用中,“France”和“French”这种信息可能离得非常远,而LSTM很好地解决了这种长期记忆的问题。

图5LSTM结构

图6LSTM中每个元素的意义

(输入为x,输出为h)

MIT研究员用LSTM模型对音频和文本模式的训练,基于音频的LSTM模型有3个双向的LSTM层,timestep在2~30之间,stride在1~3之间。基于文本的有两层,timestep为7,stride为3。

因为音频和文本特性不仅包含关于主体状态的区分性和时变性信息,而且还包含互补信息,所以二者结合起来可能有更好的效果。

MIT研究员利用多模态模型来实现二者的结合,该模型由两个LSTM分支组成,每个分支对应一个模式并赋予固定的权值,它们的输出合并成最终的前馈网络。

通过刚才所说,我们知道每个LSTM分支的音频和文本输入都有不同的timestep和stride,因此多模态模型要对二者进行均衡。这一步是通过使用Keras库和Tensorflow后端在较小的集合(文本)中填充训练示例的数量来匹配较大的集合(音频),通过将出现在同一窗口的示例映射到一起来完成的。

图7多模态模型

结果

基于DAIC,使用F1分数、精度(Prec.)和召回(Rec.)来说明此二元分类任务的结果。对于多种类型分类任务(如评分的分类范围为0-27),MIT研究人员采用平均绝对误差(meanabsoluteerror,MAE)和均方根误差(rootmeansquarederror,RMSE)来进行评估。

MIT研究结果

正则化的逻辑回归模型中,文本对二进制结果进行分类时(F10.59vs.0.50)优于音频特征,但是音频特征在确定抑郁评分时更为准确(MAE7.02vs5.31),

进一步根据问题进行加权建模时,音频特征的表现优于文本特征(F10.67vs.0.44),说明如果加入问题,音频的整体性能得到改善。但是相对于其他学者所做的研究,准确率有所下降。

LSTM的序列模型表现则要优于前两个模型(可用Sequence与其他做对比),基于LSTM的多模态模型更是有着最高的性能。

不同模型的最佳输入参数也是不同的。

通过上文我们知道,文本的timesteps为7,stride为3,而音频timesteps为30,stride为1,这表明,同样的内容,抑郁的人在音频中说出来的变化和区分信息和在文本中记录相比,存在更长的时间间隔。

所以基于LSTM的多模态模型对文本对象的预测大约需要7个问答序列,而对于音频人约需要30个序列。整体的准确率达到了77%。

抑郁检测是否真的可行?

即使人工智能的准确率达到了77%,心理咨询师的内心OS依旧是“哪儿能比的过我!”,毕竟,人工智能的抑郁检测和图像识别技术监测癌症是两码事。

图像检测出癌症,医生可以用手术刀去除肿瘤。可是人工智能判断出“抑郁”,医生是否需要进一步验证?如果需要验证,那么人工智能的判断是否是多余和浪费的?如果不验证,医生会不会治疗了一个算法错误的“非抑郁”病人?此时应该请个哲学家出来……

也有很多人说这很“恐怖”,试想工作面试时,角落里的人工智能可能正对着一脸懵逼的你,默默地算着精神和情绪状态……法庭上极力在争取孩子时,人工智能的“双眼”默默注视着你易激动的状态,会不会认为我们“精神衰弱”?!这种“不稳定”的判定会不会影响官司的走向……

人工智能检测抑郁还有很多疑问,但我们可以猜想的是,这些程序在未来可能应用于监控用户的精神状态,并发送警报,让用户避免陷入“抑郁”等情绪问题而不自知,让我们那一脸“冷漠”的小伙伴得到及时而准确的判断。

也许它会出现在“不属于它的地方”,但我们不能被人工智能迷惑,它不知道我们是否抑郁,是否有罪,我们的性取向如何——它只是猜测!

默默地告诉自己“你是人工智能,你瞎猜的,给我份PHQ问卷我自己来!”

参考资料:

[1]Paper原址:

1
查看完整版本: 这个AI面前,你再也没法演好情绪稳定的成