- 1、本文档共11页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
语音信号处理技术发展历程与发展趋势
201105023
1发展历程
声学是物理学的一个分支学科。而语言声学又是声学的一个分支学科,它主
要的研究方向是人的发声器官机理,发声器官的类比线路和数学模型,,听觉
器官的特性(如听阈、掩蔽、临界带宽、听力损失等)听觉器官的数学模型,,
语音信号的物理特性(如频谱特性、声调特性、相关特性、概率分布等),语音
的清晰度和可懂度等。当今通信和广播的发展非常迅速,,而语言通信和语言
广播仍然是最重要的部分,语言声学则是这些技术科学的基础。
语言声学的发展和电子学、计算机科学有着非常密切的关系。在它发展的过
程中,有过几次飞跃。第一次飞跃是1907年电子管的发明和1920年无线电广播的
出现,因为有了电子管放大器,很微弱的声音也可以放大,而且可以定量测量。
从而使电声学和语言声学的一些研究成果,扩展到通信和广播部门。第二次飞跃
应该是在20世纪70年代初,由于电子计算机和数字信号处理的发展,人们发现:
声音信号特别是语音信号,可以通过模数转换器(A/D)采样和量化,它们转换为
数字信号后,能够送进计算机。这样就可以用数字计算方法,对语音信号进行处
理和加工。例如频谱分析可以用傅里叶变换或快速傅里叶变换(FFT)实现,数字
滤波器可以用差分方程实现。在这个基础上,逐渐形成了一门新学科——语音
信号处理。它的发展很快,在通信、自动控制等领域,解决了很多用传统方法难
以解决的问题。在信息科学中占有很重要的地位。
2语音信号的情感处理及其未来发展
2.1语音信号的情感处理
目前情感类型的划分主要有离散的表示和连续的维度表示两种类型。离散的
情感表示是将情感划分为基本类和扩展类,也有学者称之为主要情感(原始情感)
和次要情感(派生情感)。扩展情感是由基本情感变化混合而成的,好像三元色可
以混合生成多种色彩一样,所以也有学者称该情感生成理论为情感的调色板理
论。至于基本情感的数量从两种至8种不等,学术界尚未达成共识,不过比较常
见的公认的基本情感是恐惧、生气、高兴、悲伤、吃惊、厌恶等6种。扩展情感
则覆盖了很大的情感空间,尽管有些研究者认为,因为情感产生于语言符号之前,
用情感词语对情感分类不一定是很好的方法,然而语言毕竟是思维的外壳,情感
词能在很大程度上反映出不同类型的情感。
情感还可以用连续变化的维度表示。维度是指情感在所固有的某种性质上,
存在一个可变化的度量,维度理论通常将情感定义为一个维度空间上的点。不同
研究者所定义的维度数目也有所不同,有二维的,三维的甚至四维的,其中受到
广泛认可的有H.Schloberg的“快乐维-注意维-强度维”的三维表示,和
R.Plutchik的“激发维-评价维-强度维”的三维表示。离散表示和维度表示在某
种程度上是可以相互转化的。
2.2情感语音的应用领域
2.2.1交互电影中自发(spontaneous)交互的判定
电影艺术从19世纪开始就已经逐步完善,它为人们提供了一种娱乐方式,
但目前电影还只是提供给人们不同种类的情节,对观众来说并没有直接参与进
去。观众所能亲身经历、感受和学习到的东西是非常有限的。交互式电影将为人
们提供一种全新的感受。观众不仅能看到故事情节,也能与故事进行交互,提供
给人们一种全新的经历。在这种电影中,人们不再只是预测其中人物的命运,而
是能亲身经历日常生活中从未有过的剧情和故事。通过这种方式将为大家提供学
习不同本领和课程的大好机会。交互电影的关键因素之一,就是与作为主要角色
的参加者进行交互的计算机角色。日本ATR媒体集成和通信研究实验室,通过
用情感识别将自发交互能力引入到了交互电影中,在研究过程中,他们考虑到只
有语音识别时,系统很难判定参加者的语音是事先设计好的台词,还是自发输入
的台词。为此,同时使用语音识别和情感识别来决定是进行预先设计好的演出方
式,还是进入自发交互方式。当语音识别结果比较理想时,可确定为是一个设计
好的交互,并由此让演员进行事先定义好情节的表演;而当语音识别结果不理想
时,可确定为是一个自发方式,利用情感识别结果产生演员自发的反应和动作。
2.2.2辅助残疾人讲话
失语症是很多脑部疾病带来的直接后遗症,这些患者有着与健康人同样的情
感却苦于无法表达。为此VAESS(VoicesAttitudesandEmot
文档评论(0)