数字语音处理_第二章.ppt

下载文档 降价啦

11
0
约6.34千字
约 62页
2017-09-01 发布于湖北
举报
版权申诉
保障服务

数字语音处理_第二章.ppt

1、本文档共62页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

数字语音处理_第二章

根据人耳的听觉特性得出的模型作为语音识别的特征提取部分，可获得具有鲁棒性的特征参数，它们对真实世界中的噪音环境下的语音识别都表现出很好的性能。 2.4 语音的感知 2.4.1 几个概念 1. 人耳听觉界限的频率范围大约为20Hz-20kHz。 2. 语音感知的强度范围是0－130dB声压级。 3. 响度这是频率和强度级的函数。通常用响度(单位为宋)和响度级(单位为方)来表示。此时响度级定为零方。测量表明听阈值是随频率变化的。通常，人们把1kHz纯音听阈值定为零方。 4. 人耳刚刚可以听到的声音强度，称为“听阈”。加大声音的强度，使听起来令耳朵感到疼痛，这个阈值称为“痛阈”。 5.音高(音调) 音高也叫基音。物理单位为Hz，主观感觉的音高单位是美(Mel)。当声强级为40dB频率为1kHz时，设定的音高为1000美。 2.4.2 掩蔽效应掩蔽效应：两个响度不等的声音作用于人耳时，则响度较高的频率成分的存在会影响到对响度较低的频率成分的感受，使其变得不易察觉，即：一个声音的听觉感受性受同时存在的另外一个声音的影响，这个现象称为人耳的“掩蔽效应”。此时前者称为被掩蔽音，后者称为掩蔽音。在掩蔽情况下，被隐蔽音的听阈会提高，即加大被掩蔽音的强度才能听到。此时听阈称为掩蔽听阈。低频的纯音可以有效地掩蔽高频的纯音。利用人耳的掩蔽效应，在进行语音压缩时，让量化噪音的频谱跟随语言信号频谱包络变化。则共振峰的频率成分就会掩蔽掉量化噪声。这个技术称为噪声整形或听觉加权处理。低音容易掩蔽高音，而高音掩蔽低音较难。基于此，可以将真实的声音频率映射到“感知”频率尺度，即Bark尺度对应的临界带宽。 2.4.3 临界带宽与频率群用一中心频率为f，带宽为Δf的白噪声来掩蔽一频率为f的纯音，先将这个白噪声的强度调节到使被掩蔽纯音恰好听不见为止。然后将Δf由大到小逐渐变化，而保持单位频率的噪声强度（即噪声谱密度）不变，起初这个纯音一直是听不见的，但当Δf小到某个临界值时，这个纯音就突然可以听见了。如果再进一步减小Δf，被掩蔽音f就会越来越清晰。这里刚刚开始能听到被掩蔽声时的Δf宽的频带，叫做频率f处的临界带。当掩蔽噪声的带宽窄于临界带的带宽时，能掩蔽住纯音f的强度是随噪声的带宽的增加而增加的，但当掩蔽噪声的带宽达到临界带后，继续增加噪声带宽就不再引起掩蔽量的提高了。临界带宽是随中心频率而变的，被掩蔽纯音的频率（即临界带的中心频率）越高，临界带宽也越宽。临界频带也可定义为：一个给定的正弦纯音在基底膜上能够产生谐振反应的那一部分。一个频率群的划分相应于基底膜分成许多很小的部分，每一部分对应一个频率群。一个临界带的单位用巴克（Bark）表示。 2.5 语音信号模型有三部分作用施加在语音的声波上：声门产生的激励模型G(z)；声道产生的调制函数V(z)；嘴唇产生的辐射函数R(z)。语音信号的传递函数由这三个函数级联而成，即：H(z)=G(z)V(z)R(z) 2.5.1 激励模型 ? 发浊音时，产生的脉冲类似于斜三角形的脉冲。激励波是一个以基音周期为周期的斜三角脉冲串。 ? 图2.9 三角波及其频谱图单个三角波的数学表达式为其中：N1为斜三角波的上升时间 N2为其下降时间单个斜三角波的频谱G(ejω)表现出一个低通滤波器的特性。其z变换的全极点形式为：作为激励的斜三角波串可以用一串加了权的单位脉冲序列去激励单位斜三角波模型实现。这个单位脉冲串和幅值因子可以表示成下面的z变换形式浊音激励模型可表示为清音可以模拟成随机白噪声。 2.5.2 声道模型-（1）共振峰模型典型的声道模型有两种：无损声管模型和共振峰模型。（1）共振峰模型当声波通过声道时，受到声腔共振的影响，在某些频率附近形成谐振。反映在信号频谱图上，在谐振频率处其谱线包络产生峰值，一般把它叫作共振峰。实践表明，用前三个共振峰代表一个元音足够了。多个Vi叠加可以得到声道的共振峰模型：一个二阶谐振器的传输函数可以写成无损声管模型：是假定声道由多个等长的不同截面积的管子串联而成的系统，并假定管子中的流体及管壁没有热传导和粘滞的损耗。在短时间内，声道可表为形状稳定的管道，并可以认为声波是沿管轴传播的平面波。