基于深度神经网络的微表情识别.docVIP

下载本文档

8
0
约7.62千字
约 11页
2017-08-24 发布于北京
举报
版权申诉

基于深度神经网络的微表情识别.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于深度神经网络的微表情识别　　摘要微表情是一种极为短暂的面部表情，当人们想要掩饰内心的真实情感时，就会不自觉的流露出来。由于微表情的持续时间短，动作幅度小等特点，检测和识别微表情就变得尤为困难。为了解决传统图像识别的方法的识别率低和预处理复杂等缺点，本文提出了采用深度神经网络的方法来对微表情进行识别。该深度神经网络由卷积神经网络（CNN）和长短时记忆型（LSTM）递归神经网络组合而成，CNN层负责提取微表情的静态图像特征，LSTM层将提取到的卷积特征进行整合，而得到这些特征在时域上的信息，进而对这些信息进行分类训练。在CASM2数据集下，该方法对5类表情的识别率比传统方法高。　　【关键词】微表情识别卷积神经网络长短时记忆　　1 引言　　人们的内心想法通常都会表现在面部表情上，然而在一些极端环境下，人们为了压抑自己的真实内心情感时，他们的面部变化十分微小，我们通常称之为微表情。在刑侦、医学、教育、心理和国防等领域上，微表情的应用前景十分远大，不过即便是经过训练的人也很难用肉眼来准确的检测和识别微表情。其主要原因就是它的持续时间短，仅为1/5～1/25s，而且动作幅度很小。　　人脸表情识别技术早已发展到一定程度了，甚至不少研究团队提出的方法针对6种基本表情的识别率已经达到90%。然而微表情识别技术的研究在近几年来才刚刚开始，如Pfister等提出了一种结合时域插值模型和多核学习的方法来识别微表情； Wu等设计了一种使用Gabor特征和支持向量机的微表情识别系统；唐红梅等在LTP做出改进而提出的MG-LTP算法，然后采用极限学习机对微表情进行训练和分类；Wang等提出了基于判别式张量子空间分析的特征提取方法，并利用极限学习机训练和分类微表情。　　上述的识别技术都是基于传统机器学习的方法，而近几年来，利用深度学习技术来解决图像识别问题是当前的研究热点。在ILSVRC-2012图像识别竞赛中，Krizhevsky等利用深度卷积神经网络的自适应特征提取方法，其性能远远超过使用人工提取特征的方法，并且在近几年内的ImageNet大规模视觉识别挑战比赛中连续刷新了世界纪录。　　本文决定使用卷积神经网络（CNN）来提取人脸微表情特征，它能让机器自主地从样本数据中学习到表示这些微表情的本质特征，而这些特征更具有一般性。由于微表情的特性，要充分利用微表情的上下文信息才能更为精确的识别微表情，这里我们采用长短时记忆网络（LSTM），它是递归神经网络（RNN）中的一种变换形式，它能够充分的利用数据的上下文信息，在对序列的识别任务中表现优异，近几年来它被充分的利用到自然语言处理、语音识别机器翻译等领域。综上所述，本文提出一种CNN和LSTM结合的微表情识别方法。　　2 相关工作　　2.1 卷积神经网络模型　　卷积神经网络模型（CNN）最早是由LeCun等在1990年首次提出，现已在图像识别领域取得巨大成功，它能够发现隐藏在图片中的特征，相比人工提取的特征更具有区分度，而且不需要对原始数据做过多的预处理。　　卷积神经网络（CNN）通过三种方式来让网络所学习到的特征更具有鲁棒性：局部感受野、权值共享和降采样。局部感受野是指每一个卷积层的神经元只能和上一层的一部分神经元连接，而不是一般神经网络里所要求的全连接，这样每一个神经元能够感受到局部的视觉特征，然后在更高层将局部信息进行整合，进而得到整个图片的描述信息。权值共享是指每一个神经元和上一层的部分神经元所连接的每一条边的权值，和当前层其他神经元和上一层连接的每一条边的权值是一样的，首先?@样减少了需要训练的参数个数，其次我们可以把这种模式作为提取整个图片特征的一种方式。降采样是指通过将一定范围内的像素点压缩为一个像素点，使图像缩放，减少特征的维度，通常在卷积层之后用来让各层所得到的特征具有平移、缩放不变形，从而使特征具有更强的泛化性。　　2.2 长短时记忆型递归神经网络模型　　长短时记忆（LSTM）模型是由Hochreiter提出，它解决了传统RNN在处理长序列数据时存在的梯度消失问题，这一切都要归结于LSTM结构的精心设计。一个常规的LSTM结构如图1所示。　　每一个LSTM结构都有一个记忆单元Ct（t表示当前时刻），它保存着这个时刻LSTM结构的内部状态，同时里面还有三个门来控制整个结构的变化，它们分别是输入门（xt），忘记门（ft）和输出门（ht），它们的定义如下所示：　　（1）　　（2）　　（3）　　（4）　　（5）　　（6）　　其中σ是一个sigmod函数，而则表示输入数据的非线性变化，W和b是模型需要训练得到的参数。等式5展示了当前的记忆单元是由忘记门和上一时刻的内部状态所控制的，ft决定了上一时刻的内部