用于视听情感识别的轻量且准确的深度学习模型
Orange Labs和Normandie University的研究人员开发了一种用于视听情感识别的新型深度神经模型,该模型在小型训练集中表现良好。他们的研究预先发布在arXiv上,遵循简单的哲学,大大限制了模型从数据集中获取的参数并使用简单的学习技术。
用于情绪识别的神经网络在医疗保健,客户分析,监视甚至动画的环境中具有许多有用的应用。虽然最先进的深度学习算法已经取得了显着的成果,但大多数仍然无法达到人类所获得的情感的相同理解。
“我们的总体目标是通过让计算机能够感知人类表达的各种细微细节来促进人机交互,”进行这项研究的研究人员FrédéricJurie告诉TechXplore。“感知图像,视频,声音和声音中包含的情感都属于这种背景。”
最近,研究将多模态和时间数据集放在一起,其中包含带注释的视频和视听剪辑。然而,这些数据集通常包含相对少量的注释样本,而为了表现良好,大多数现有的深度学习算法需要更大的数据集。
研究人员试图通过开发一个新的视听情感识别框架来解决这个问题,该框架融合了视觉和音频素材的分析,即使在相对较小的训练数据集中也能保持高水平的准确性。他们在AFEW上训练他们的神经模型,AFEW是从电影中提取并用离散情绪注释的773个视听片段的数据集。
“人们可以将这个模型视为处理视频的黑匣子,并自动推断出人们的情绪状态,”Jurie解释道。“这种深度神经模型的一大优势是,他们自己学习如何通过分析示例处理视频,而不需要专家提供特定的处理单元。”
研究人员设计的模型遵循奥卡姆的剃刀哲学原理,这表明在两种方法或解释之间,最简单的方法是最佳选择。因此,与其他用于情感识别的深度学习模型相反,他们的模型保持相对简单。神经网络从数据集中学习有限数量的参数,并采用基本的学习策略。
“所建议的网络由级联处理层组成,从信号到解释信息抽象信息,”Jurie说。“音频和视频由网络的两个不同频道处理,最近在整个过程中进行组合,几乎在最后。”
经过测试,他们的光模型实现了60.64%的有希望的情感识别准确率。在科罗拉多举行的ACM国际多模式互动会议(ICMI)上举行的2018年野外情绪认可(EmotiW)挑战中,它也排名第四。
“我们的模型证明,遵循奥卡姆的剃刀原则,即总是选择最简单的设计神经网络的替代方案,可以限制模型的大小,并获得非常紧凑但最先进的神经网络,这更容易训练,“Jurie说。“这与使神经网络变得越来越大的研究趋势形成对比。”
研究人员现在将继续探索通过使用当前可用的有限注释训练数据集同时分析视觉和听觉数据来实现情绪识别的高精度的方法。
“我们对几个研究方向感兴趣,例如如何更好地融合不同的方式,如何通过紧凑的语义来表示情感,意味着完整的描述符(而不仅仅是类标签),或者如何使我们的算法能够用更少的,甚至更少的学习来学习没有注释数据,“Jurie说。