语音信号处理 第4版 课件 第2章:语音信号处理的基础知识.pptx

语音信号处理 第4版 课件 第2章:语音信号处理的基础知识.pptx

  1. 1、本文档共20页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

南京邮电大学通信与信息工程学院第2章语音信号处理的基础知识

语音发音及感知系统语音信号生成的数学模型语音基本概念和参数语音信号的数字化和预处理

2.1语音发音及感知系统语音发音系统语音是由肺部呼出的气流通过在喉头至嘴唇的各种作用而发出的。(1)把肺部呼出的直气流变为音源;(2)对音源其共振和反共振作用,使其带有音色;(3)从嘴唇或鼻孔向空间辐射的作用;声门:声带之间的部分,开启或闭合,其开闭一次的时间为基音周期(倒数为基音频率);男性:50~250Hz,女性:100~500Hz声道:从声门到嘴唇的呼气通道;发浊音时,声门处气流冲击声带产生振动,通过声道响应变为语音。发清音时,声带不振动。

2.1语音发音及感知系统语音听觉系统分为听觉外周和听觉中枢两部分。听觉外周(外耳、中耳、内耳、蜗神经):完成声音的采集、频率分解、声能转换功能;听觉中枢(位于听神经以上):加工和分析声音,包括感知声音的音色、音调、声强、判断方位等。

2.1语音发音及感知系统语音听觉系统外耳:对声音感知中起着声源定位以及声音放大作用;中耳:进行声阻抗变换;听小骨对声音进行线性或非线性传递;内耳:主要构成器官是耳蜗,是听觉的受纳器,把声音通过机械变换产生神经发放信号。

2.1语音发音及感知系统人耳听觉特性基底膜的频率响应分布多通道滤波器实现人类能够听到的声音频率为20~20000Hz,强度为-5~130dB。耳蜗基底膜具有时频分析仪的功能,将复杂信号分解为各种频率分量。可由一组伽马通滤波器实现,每个滤波器模拟基底膜不同部位最大位移处的响应。

2.1语音发音及感知系统人耳听觉掩蔽效应掩蔽效应:在一个强信号附近,弱信号变得不可闻。最小可听阈曲线:在安静环境下,人耳对各种频率声音可以听到的最低声压(人耳对低频率和高频率不敏感,在1kHz附近最为敏感)。由于位于1kHz频率的掩蔽声存在,使听阈曲线发生了变化,本可以听到的三个被掩蔽声,变得听不到了。?在掩蔽声附近发生了掩蔽效应。同时掩蔽:强信号和弱信号同时出现。频率靠的越近,掩蔽声越强,掩蔽效应越明显。短时掩蔽:强信号和弱信号不同时出现。又分为后向掩蔽和前向掩蔽。

语音发音及感知系统语音信号生成的数学模型语音基本概念和参数语音信号的数字化和预处理

2.2语音信号生成的数学模型语音信号的数字模型U(z)是激励信号,浊音时U(z)是声门脉冲,即,斜三角脉冲序列的z变换;清音时,U(z)是一个随机噪声的z变换。V(z)是声道传递函数,可用声管模型或共振峰模型来描述。R(z)为辐射模型,一般为一阶高通形式。模拟了语音发音系统!

2.2语音信号生成的数学模型激励模型G(z)是一个低通滤波器。浊音激励模型可表示为以基音周期1/F0为周期的单位脉冲序列E(z)激励G(z),得到的U(z)是一个周期斜三角脉冲串:发清音时,可以模拟成随机白噪声(均值为0,方差为1,在时间或幅度上为白色分布的序列)。发浊音时,由于声带不断张开和关闭,将产生间歇的脉冲波。首先,单个脉冲波(斜三角波)的时频域波形(g(n),G(z))如下:

2.2语音信号生成的数学模型声道模型(共振峰模型)把声道视为一个谐振腔,共振峰为腔体的谐振频率。一般地,元音用前3个共振峰表示,而对于较复杂的辅音或鼻音,需要用到前5个以上的共振峰。(实际中需要求出每个浊音/清音的共振峰频率、带宽、幅度等参数)级联型:传递函数V(z)为全极点模型,结构简单,适用于一般浊音。并联型:传递函数V(z)加入了零点,结构复杂,适用于非一般浊音以及大部分清音。

2.2语音信号生成的数学模型声道模型(共振峰模型)混合型:将上述二者结合。研究表明,口唇端辐射在高频较为显著,在低频端时影响较小,所以辐射模型R(z)是一阶类高通滤波器的形式。辐射模型

语音发音及感知系统语音信号生成的数学模型语音基本概念和参数语音信号的数字化和预处理

2.3语音基本概念与参数基本参数声压与声强:(1)声压、有效声压、声压级(SPL);(2)声强、声强级(IL);(3)声压与声强的关系;响度:声音的响亮程度频率与音高:音高是以人的主观感受来评价所听到的声音高低

2.3语音基本概念与参数时域波形浊音[ou](B段),[e](D段)的波形具有明显的周期性,且振幅较大,它们的周期与声带振动的频率有关,即为基音周期清音[s](A段),[k](C段)的波形类似于白噪声,振幅很小,没有明显的周期性

2.3语音基本概念与参数频域特性浊音[ou]的频谱,可以看出其基音频率为300Hz,与时域波形一致。另外可以看出其共振峰(频谱中的凸起点)。清音频谱峰

文档评论(0)

balala11 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档