语音信号处理 第2版 作者 赵力 语音信号处理第12章.pptVIP

语音信号处理 第2版 作者 赵力 语音信号处理第12章.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
12.1 概述 12.2 语音信号中的情感分类和情感 特征分析 12.3 语音情感识别方法 12.4 情感语音的合成 12.5 今后的研究方向 12.1 概述 随着信息技术的高速发展和人类对计算机的依赖性的不断增强,人机的交互能力越来越受到研究者的重视。在人机交互中需要解决的问题实际上与人和人交流中的重要因素是一致的,最关键的都是“情感智能”的能力。因此计算机要能够更加主动的适应操作者的需要,首先必须能够识别操作者的情感,而后再根据情感的判断来调整交互对话的方式。 包含在语音信号中的情感信息是一种很重要的信息资源,它是人们感知事物的必不可少的部分信息。所以包含在语音信号中的情感信息的计算机处理研究,分析和处理语音信号中的情感特征、判断和模拟说话人的喜怒哀乐等是一个意义重大的研究课题。 12.2 语音信号中的情感分类和情感 特征分析 12.2.1情感的分类 要研究语音信号的情感,首先需要根据某些特性标准对语音情感做一个有效合理的分类,然后在不同类别的基础上研究特征参数的性质。 经过Plutchik等人的多年研究,通过在激活评价空间上对情感进行分析,认为情感分布在一个圆形的结构上,结构的中心是自然原点。由于各种情感在自然原点的周围排成了一个圆形,所以这种对情感进行分类的方法叫做“情感轮(Emotion Wheel)”。对于任何一个情感语句,可以根据其情感强度和情感方向,在情感轮所组成的二维平面中用唯一的一个情感矢量 来表示。其中情感强度表现为这个情感矢量的幅度值,而情感方向则表现为该情感矢量的角度。 不同于Plutchik的分类手段,Fox提出的三级情感模型,则是按照情感中表现的主动和被动的程度不同将情感分成不同的等级,如表12-1所示。等级越低,分类越粗糙,等级越高,分类越精细。 12.2.2 情感特征分析 语音之所以能够表达情感,是因为其中包含能体现情感特征的参数。情感的变化通过特征参数的差异而体现。因此研究从语音信号中提取这些反映情感的参数,对于情感语音识别等具有极其重要的意义。通常在语音情感识别时使用的主要特征参数包括以下内容。 Murray和Arnott总结了情感和语音参数的关系如表12-3所示。 当人处于愤怒的情感时,其生理特征较平时突出,如心跳加快、皮肤电压升高、血压升高等,这同时也影响到了语音特征参数的变化。首先由于生理变化的缘故,胸腔的回声和呼吸声在语音信号中所占的比重将有所增加,振幅强度也大大高于普通的情感,语速也较普通语句快,是加速句和加强句的结合。为了增加生气的效果,基音在重音处语调的突变,成为了生气状态的一个重要特征。 对于高兴时的情感,与愤怒情感时的生理特征有相似之处,它的声音中也往往带有呼吸的声音,但是和其它情感的主要不同之处在于,人处于高兴的状态时,它的基音变化通常是一条向上弯曲的曲线。句子的振幅强度也集中在句子的末尾的一两个字,整个句子的声调的调域要比平静语句高。句中非关键性的字和词的调形拱度就变得平坦一些,甚至失去本调,而成为前后相邻两调的中间过渡。 由于悲伤情感属于压抑情感类,所以它的时长较平静语句慢,强度也大大低于其它各种情感,基音的变化也是一条向下弯曲的曲线。由于语速较慢的缘故,每一个字的读音彼此都拉得很开,所以字调的调形保留了其单字的调形,多字调的效果弱化。但由于在悲的语句中几乎每个字都夹杂了一定程度的鼻音,所以要进行鼻音化的处理,使悲的语句的调阈降低,整个语句趋于平坦化。 恐惧情感在语速、基音、基音范围上同高兴情感、生气情感的语句相类似,不同的地方仅在于语句的清晰度较其它情感精确。在实际的识别过程中目前还没有找到识别该种情感的有效特征参数。 厌恶情感由于和生气情感具有较高的相似性,在很多研究文献中被归入生气情感中进行研究,大部分的特征参数和生气情感类似。同生气时的主要区别在于基音的变化率比较宽,并在语句末端有向下倾斜的趋势。 在汉语语音情感信息处理的研究方面,作为基础研究,其超音段特征的研究将占较大比例。对于喜、怒、惊、悲四种情感,汉语语音信号的时间构造、振幅构造、基频构造和共振峰构造等特征的构造特点和分布规律,可以分析如下。 时间构造的分析:分析情感语音 的时间构造主要着眼于不同情感 语音的发话时间构造的差别。我 们可以计算出每一情感语句从开 始到结束的持续时间,这一时间 包括句中的无声部分,因为无声 部分本身对情感是有贡献的。然后就情感语句的发话持续时间长度(以下简称为T)以及平均发话速率(音节/秒)和情感的关系进行了分析和比较。 从图12-2可以看出,在发话的持续时间上,愤怒、惊奇的发音长度和平静发音相比压缩了,而欢快、悲伤的发音长度却伸长了。在被压缩的愤怒、惊奇中,愤怒的发音最短,其次是惊奇。欢快和悲

您可能关注的文档

文档评论(0)

开心农场 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档