语音情感识别中情感特征研究进展.docVIP

下载本文档

9
0
约 5页
2017-03-20 发布于北京
举报
版权申诉

语音情感识别中情感特征研究进展.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

语音情感识别中情感特征研究进展.doc

语音情感识别中情感特征研究进展摘要近年来，随着人机交换技术的迅猛发展，语音情感识别引起了研究者广泛的关注，特别是在语音情感特征提取方面，研究者做了大量工作，取得了丰硕的成果。本文首先介绍了语音情感识别系统的模型，然后对情感识别中用到的语音情感特征进行了总结分析，并对情感特征提取面临的问题进行了探讨。关键词语音；情感特征；特征提取；情感识别中图分类号TP39 文献标识码 A 文章编号 1674-6708（2015）140-0223-01 1 语音情感识别概述随着信息技术的飞速发展以及人机交互技术的不断进步，人们对计算机的要求越来越高，人们希望未来和计算机的交互能像人与人之间的交流一样，既方便，快捷，又具人性化。语音作为人类交流的主要工具之一，不仅能传送语义内容，同时不同语气的发音还包含大量情感信息，因此如何让计算机从语音中识别出说话者的情感状态，成为了研究热点，而语音情感识别广阔的应用前景也引起了越来越多的研究者的重视。语音情感识别不仅能应用于人机交互系统，还能广泛的应用于远程网络教学、医疗辅助、反恐侦测，客户服务等领域[1]。语音情感识别的系统模型主要由3部分组成，即语音信号处理、情感特征的提取和语音情感识别。语音信号处理主要包含语音信号的采集、数字化、预处理、频谱提取等方面，它主要为下一步的特征提取做准备；情感特征提取就是从处理好的语音数字信号中提取出能表征语音情感的特征向量；而情感识别则是通过选好的分类算法将情感特征向量进行分类从而达到识别的目的。其中，情感特征的提取是其中的重要环节，因为情感特征是语音信号内所含情感信息的抽象，它的好坏直接影响系统情感识别准确性。因此，本文主要对语音情感识别中情感特征的研究现状进行分析总结。 2 语音情感特征研究现状从1972年Williams发现人的情感变化对语音的基音轮廓有很大的影响，并将其用于语音情感识别的研究开始到如今，经过四十多年的探索，语音情感特征的类型越来越丰富，语音情感识别的效果越来越好。但总体而言，目前用于语音情感识别的情感特征大致可以分为三种类型，即韵律特征、音质特征以及基于频谱的相关特征。这些特征一般相互融合以全局特征统计值的形式，如统计最大值、最小值、平均值、方差等参与情感识别。 2.1 韵律特征韵律特征是指蕴含于语音之中但不同于语义内容的一类语音特征。它具体体现为音量的高低、发音的长短、语速的快慢、语气的轻重等，决定了讲话声音的抑扬顿挫，是对语音表达方式的一种结构性安排及补充。它的存在与否并不影响我们对字、词、句的听辨，但却与语音中蕴含的情感密切相关。如当人愤怒时，说话语速明显加快、音量高、语气重；而悲伤时语调低沉、语速慢、音量小等。目前，最为常用的韵律特征主要有：基音频率、能量、时长等。Iliou等人研究了德语情感语料库中的七种情感语音，提取了35维韵律特征，取得了约51%的情感识别率。Zhang等人以汉语情感语音库为研究对象，提取了四种情感语音的韵律特征，得到了约76%的情感识别率。Wang等人也基于汉语情感语料库做了研究，提取了六类情感语音的韵律特征，采用支持向量机做识别得到了约88%的平均情感识别率。韵律特征是语音情感识别中应用最早、使用最为广泛、并且情感区分能力已得到了研究者一致认可的一类情感特征。 2.2 音质特征音质特征是一类用来体现说话人语音是否清晰纯净、容易辨识的语音特征。人在不同情感状态下，其声音的质量会有很大不同，具体体现为：随情绪波动，人会不由自主的产生喘息、颤音、哽咽等。而在不同情感状态下，这些声学表现各不相同，因此，声音质量的变化蕴含有丰富的情感信息，提取音质特征有利于语音情感的识别。在语音情感识别中用于衡量声音质量的音质特征一般有：共振峰、呼吸喉化音和声门参数等。文献的研究表明，语音情感与音质特征有很大关联性。R.Sun等将声门参数和基频、能量等韵律特征在情感识别中发挥的作用进行了比较。众多研究证明，音质特征有利于语音情感的识别。 2.3 基于频谱的特征频谱特征是语音情感识别中衍生种类最多，应用最为广泛的一类情感特征向量，它一般是通过模拟人的语音产生机制或听觉特性而提取，因此，情感区分效果较为理想，一直备受研究者重视。如使用最为广泛的线性预测倒谱系数（LPCC），它是模拟了人的声道特性、声门激励特性而提取的特征参数；而梅尔频率倒谱系数（MFCC）则是模仿了人耳听觉特性。除了LPCC和MFCCC，还有一些新的频谱特征也用于语音情感识别，Yildirim等人将频谱能量特征与语音韵律特征相融合对四类英语情感语音进行识别，取得了75%的平均情感识别率。此外，随着信号处理技术的不断进步，一些基于频谱的新特征也被探索出来用于情感的识别，叶吉祥等[2]利用希尔伯特黄变换提取语音信号的边际能量谱特征用于情感识别也取得了