- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
集成神经网络语音情感识别模型研究
导语:?语音情感识别是服务机器人的关键技术之一,具有重要的应用价值。与传统的语音情感识别方法相比,基于深度神经网络的语音情感识别方法已经展示出优越的性能。 背景
情感识别有助于为人机交互提供良好的体验,是未来计算机必备的一项重要能力,因而近年来语音情感识别已经逐渐成为一个研究热点,并有了大量应用。虽然早在20世纪80年代就出现了语音情感识别的相关研究,该课题对于机器而言确实较为棘手。此外,相比语音识别领域,用于语音情感识别的公开数据库少之又少。
语音情感识别系统由两部分构成,即特征提取器和情感识别分类器。
语音情感识别任务中使用的声学特征可分为3类:韵律学特征、谱特征和音质特征。其中常用的韵律学特征包括时长、基频、能量等;谱特征一般有LPC、OSALPC等线性谱特征和MFCC、LPCC等倒谱特征;音质特征一般有共振峰频率及其带宽、频率微扰、振幅微扰和声门参数等。以上声学特征由于是从语音帧中提取,表征的是短时音频的特性,也统称为低层描述子。然而人们对情感的感知往往蕴藏于某一时间段内情感的波动表达,所以为了在更长的时间范围内对情感进行描述,通常还计算句子的全局特征。全局特征用于刻画低层描述子在整句话中的动态变化信息,因此由低层描述子的统计值组成,常见的统计值有均值、极值、变化范围、丰度、偏度、矩和线性回归相关参数等。特征设计在传统的语音情感识别方法中是重要的一环,决定了情感特征的好坏。然而,寻找最优的特征子集是一项繁琐的任务,也依据不同的数据库而有所不同。到目前为止,对于语音情感识别任务还没有一套公认的最优特征集,研究人员大多在实验中经验性地选择所需特征。
根据特征来源和分类器训练方法的不同,语音情感识别系统可以在两个层次进行情感的判断:短语音段层次和完整句子层次。对于短语音段的语音情感识别,一个句子被切分为多个语音段,使用语音段的特征训练分类器。低层描述子在从语音帧提取出来后,被输入到序列分类器以模拟说话人的情感分布状态,这样的序列分类器通常使用高斯混合模型和隐马尔可夫模型进行建模。在训练时短语音段的情感标签就是所属句子的情感标签;测试时,由于一句话有多个语音段的识别结果,对它们进行大多数投票得到最终的识别结果。对于完整句子层次的语音情感识别,分类器输入的是从整个句子提取的特征。首先由低层描述子和统计函数计算句子的全局特征,最后全局特征输入到一个判别分类器进行句子情感的识别。这样的判别分类器包括几乎所有的传统分类器,如支持向量机、决策树、K邻近模型等。
近年来,深度神经网络因其具有强大的从原始数据学习层级特征的能力,也被引入了语音情感识别领域。Han等人设计了DNN用于学习短时语音段情感特征,后端使用极限学习机对全局特征进行句子层次的情感分类。Lee等人提出了基于最大似然学习准则的循环神经网络对随机语音段标签序列进行建模,极大提升了语音情感识别的准确率。Mirsamadi等人针对语音情感识别探索了不同的RNN结构,并提出了注意力机制对不同情感重要程度的语音帧进行加权。Mao等人设计了卷积神经网络来学习语音中显著具有判别性的情感特征。
在同一个数据库上比较以上不同的方法,可以发现它们的混淆矩阵有很大差异。尽管使用相同的低层描述子,不同分类器在每个情感类别上都获得了不一致的识别率。该现象说明单一的分类器无法在所有情感类别上都表现良好,例如可能SVM无法有效识别出“高兴”而DNN分类器却可以。这样的差异除了与数据不均衡有关,还与分类器自身的建模能力直接相关。
从该结论出发,为了提高语音情感识别的准确率,本文提出一种使用两类神经网络作为基分类器的集成学习方法。正如文献所说,集成系统中的基分类器应该尽可能地具有不同结构来达到更好的泛化性能,本文选择了适于处理序列数据的循环神经网络和在图像分类中性能突出的宽度残差网络作为基分类器。
基分类器介绍
1.长短时记忆循环神经网络
由于本身独特的结构,RNN拥有强大的处理序列数据的能力。隐含层在前后时间步间的连接使上一步的隐含层状态能够传递给当前步的隐含层。如此循环传递下去,序列中第一步的信息就能传递到最后一步,序列相关性得以建模。然而,当输入序列达到一定长度,由于梯度消失问题RNN的性能会急剧下降,长短时记忆模型就是为了克服该问题而设计的。
总体来说,一个LSTM模块包括四个元素:输入门i、遗忘门f、输出门o和记忆单元c,三个门负责调节记忆单元前后时间步状态之间的关系。以某个时间步t为例,RNN的输入是xt,三个门和记忆单元的状态依次是it、ft、ot和ct,该层LSTM的输出是ht,它们之间的关系由下式表示:
(1)
(2)
原创力文档


文档评论(0)