- 1、本文档共7页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
语音情感识别综述+
陈建厦
(厦门大学计算机科学系,福建厦门361005)
摘要从语音中提取人类的情感是一个十分有趣而又富有挑战性的问题。近几年来,有不少学者致力于这方
面的研究。本文介绍了带有情感的语音的特征,阐述了现有的几种从语音中提取情感的方法,时其进行分
析比较,指出了语音情感识别技术的发展趋势。
关键词语专情感,1
1刖罱
语言是人类交际的最重要的交流工具。人类的话语中不仅包含了文字符号信息,而且还包
含了人们的感情和情绪等信息。例如,同样一句话,往往由于说话人的情感不同,其意思和给昕
者的印象就会不同。当人们通过电话交谈的时候,他能通过对方的声音感知到对方的情感。
从这点上看,我们认为通过分析语音来判断人的情感是可能的。从语音信号提取情感特征,
判断说话人的喜怒哀乐,是这些年刚刚兴起的研究课题。本文主要阐述近几年国内外在这个
领域的研究状况。
2研究现状
2.1概述
人类的情感是复杂多样的。目前从语音中提取情感只研究少数几种情感的识别,比如喜
究中所用到的带有情感的语音数据是有意识的情感,即由人根据给定情感来朗读给定语句,
而不是自发的情感。这些语句一般由专业演员来朗读。语句数量由几百到几千句不等。识别
系统的工作流程一般分为以下几个部分;先对语音信号根据需要进行预处理,然后提取特征
信息,进一步根据特征将语音数据分类,最后得出识别结果。
2.2语音情感的特征
Xiao
Lm等…认为:与一般说话相比,带情感的语音在以下三组参数存在变化:语音质
量、音调和说话速度。这三种参数中有一些不容易测量,比如语音质量和语速,这两组参数
带有较多的主观色彩。不同的人说话的特征不~样,有的人说话就是比较快,有的人说话慢
一些。有的人声音沙哑,有的人语音洪亮。所以音调更具客观性。多数学者将研究重点放在
取情感是被证明是行之有效的。以下比较详细地分析一下常用的特征;
221发音持续时间
语句发音持续时间指每一语句从开始到结束的持续时间。Nicholson[61确定一句话的开始
和结束的位置采用的方法是:把语音能量和预先设定的能量阈值做比较。当语音能量超过这
个闽值,并且在接下来的连续几帧都高于这个阂值,标志着一句话的开始。当语音能量连续
几帧低于这个闭值时表示~句话的结束。这样处理可以比较有效地去除噪声的干扰。有学者
’获得国家自然科学基金(批准号、高等学校骨干教师资助计划、福建省自然科学基金项目(项
目编号:A0110004)资助。
179
把情感语句的持续时间和相应的平静语句持续时间的比值作为识别用特征参数。赵力等在文
献【7冲,对说话的持续时间有如下结论:欢快、愤怒、惊奇的发音长度和平静发音相比压
缩了,而悲伤的发音长度却稍稍伸长了。在被压缩的欢快、愤怒、惊奇中,愤怒的发音最短,
其次是惊奇,然后是欢快。从发话速率和情感的关系来看,欢快、愤怒、惊奇和平静发音相比
变快了,而悲伤却变慢了。通过进一步的观察可知,这些现象的产生是由于和平静语音相比,
在情感语音中,一些音素被模糊地发音、拖长或省略掉了的缘故。
2.2.2基音频率
对于基音频率的处理,赵力等”1的做法是利用倒谱法逐帧求出基音频率,并对基频曲线进
行中佰滤波和线性平滑处理,然后提取情感信号基频轨迹曲线的最大值、整个曲线的基频平
均值以及平均变化率等特征。研究发现”1,和平静语音信号相比,欢快、愤怒和惊奇的平均基
频、动态范围、平均变化率比较大,而悲伤语音信号则较小。对比较大的欢快、愤怒、惊奇
来讲,炊快语音信号的特征量最大,其次是惊奇和愤怒。另外还有一个区分惊奇和其它情感信
号的重要特征,那就是惊奇情感信号的基频轨迹曲线在句尾的地方往往有上翘的特征。
2.2.3能量
对于能量方面的分析,在识别时“1,把情感语句的振幅平均能量、动态范围和相应的平静
语句的振幅平均能量、动态范围的差值作为识别用特征参数。欢快、愤怒、惊奇三种情感发
音信号和平静发音发音信号相比振幅将变大,相反地,悲伤和平静相比,振幅将减小。而且从听
取实验可知…j,情感信号具有这样的倾向,即,欢快、愤怒、惊奇的平均振幅越大,悲伤的平均振
Zhou等…1提出了线性特征和非线性特征的概念。线
幅越小,其情感效应表现越明显。Guojun
sourcevocaltra
文档评论(0)