摘要:
情感是人们在沟通交流的过程中传递的重要信息,情感状态的变化影响着人们的感知和决策。情感识别是模式识别的重要研究领域,它将情感维度引入人机交互。情感表达的模态包括面部表情、语音、姿势、生理信号、文字等,情感识别本质上是一个多模态融合的问题。 提出一种多模态融合的情感识别算法,从面部图像序列和语音信号中提取表情和语音特征,基于隐马尔可夫模型和多层感知器设计融合表情和语音模态的情感分类器。建立面部表情图像的主动外观模型,实现面部特征点的定位和跟踪;根据面部特征点的位移,计算面部动画参数作为表情特征。对语音信号作时域、和频域分析,提取各帧的短时平均能量、基音频率和共振峰作为语音特征。利用提取的表情和语音特征,采用Viterbi算法训练各种表情和语音情感的隐马尔可夫模型;利用特征向量关于各隐马尔可夫模型的条件概率,采用反向传播学习算法训练多层感知器。实验结果表明,融合表情和语音的情感识别算法在识别样本中的高兴、悲伤、愤怒、厌恶等情感状态时具有较高的准确率。 提出的多模态识别算法较好地利用了视频和音频中的情感信息,相比于仅利用语音模态的识别结果有较大的提升,相比于表情模态的识别结果也有一定改进,是一种可以采用的情感识别算法。
展开
版权声明:本文为weixin_30365817原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。