第二章语音信号的数学模型详解.pptVIP

下载本文档

99
0
约7.49千字
约 67页
2016-06-17 发布于湖北
举报
版权申诉

第二章语音信号的数学模型详解.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

（5）声道模型V(Z)给出了离散时域的声道传输函数，把实际声道作为一个变截面声管加以研究，采用流体力学的方法可以导出，在大多数情况下它是一个全极点函数。V(Z)可以表示为：把截面积连续变化的声管近似为P段短声管的串联，每段短声管的截面积是不变的。P称为这个全极点滤波器的阶。P值越大，模型的传输函数与声道实际传输函数的吻合程度越高。辐射模型R(Z)与嘴型有关，通常R(Z)可以表示为在这个模型中，除了G(Z)和R(Z)保持不变以外，T、Av、Au、清/浊音开关的位置以及声道模型中参数a1～ap都是随时间而变化的，由于发音器官的惯性使这些参数的变化速度受到限制。对于声道参数，在10～30ms的时间间隔内可以认为它们保持不变，因此，语音的短时分析是分帧进行的。对于激励源参数，多数情况下这一结果也是正确的。声道的传输函数具有全极点的性质，这对于元音和大多数辅音来说是比较符合实际的，但对于鼻音和阻塞音来说，由于出现了零点，这种模型就不够准确了。一种解决问题的方案是在V(z)中引入若干零点；另一种方法是适当提高阶数P，使得全极点模型能更好地逼近具有此种零点的传输函数。 2.6 语音信号数字模型- 模型局限性(1) 数字模型的基本思想是认为任何语音都是由一个适当的激励源作用于声道而产生的，这意味着激励源与声道系统是互相独立的。上述假定对于大多数语音是合适的，但在有些情况下，例如某些瞬变音，实际上声门和声道是互相耦合的，这便形成了这些语音的非线性特性。 2.6 语音信号数字模型- 模型局限性(2) 并非任何语音都能够明显地按清音和浊音来划分，有的音甚至也不是清音和浊音的简单叠加。这种将语音信号截然分为周期脉冲激励和噪声激励两种情况的“二元激励”法在高质语音的合成中是不适用的。 2.6 语音信号数字模型- 模型局限性(3) * * (框图、二阶流图、二阶谐振频谱) p19图2-15 * p19图2-16 被滤波的信号在通过内毛细胞/突触模型之后，到达听传导通路模型。虽然各种听觉模型的带通滤波器的性能特征是基本相同的，但是在接下来几级的信号处理过程却有很大差异。事实上，不同的听觉模型都各自拥有不同的IHC模型，突触模型和听传导通路模型。一些模型为每一个滤波后的信号都设有独立的频道，而另一些模型则认为在基底膜上相邻位置处滤波得到的信号之间存在耦合性。根据人耳的听觉特性得出的模型作为语音识别的特征提取部分，可获得具有鲁棒性的特征参数，它们对真实世界中的噪音环境下的语音识别都表现出很好的性能。 2.4 语音的感知 2.4.1 几个概念 1. 人耳听觉界限的频率范围大约为20Hz-20kHz。 2. 语音感知的强度范围是0－130dB声压级。 3.语音的特性包括：音质，音调，音强，音长 3. 响度这是频率和强度级的函数。通常用响度(单位为宋)和响度级(单位为方)来表示。此时响度级定为零方。测量表明听阈值是随频率变化的。通常，人们把1kHz纯音听阈值定为零方。 4. 人耳刚刚可以听到的声音强度，称为“听阈”。加大声音的强度，使听起来令耳朵感到疼痛，这个阈值称为“痛阈”。 5.音高(音调) 音高也叫基音。物理单位为Hz，主观感觉的音高单位是美(Mel)。当声强级为40dB频率为1kHz时，设定的音高为1000美。 2.4.2 掩蔽效应掩蔽效应：两个响度不等的声音作用于人耳时，则响度较高的频率成分的存在会影响到对响度较低的频率成分的感受，使其变得不易察觉，即：一个声音的听觉感受性受同时存在的另外一个声音的影响，这个现象称为人耳的“掩蔽效应”。此时前者称为被掩蔽音，后者称为掩蔽音。在掩蔽情况下，被隐蔽音的听阈会提高，即加大被掩蔽音的强度才能听到。此时听阈称为掩蔽听阈。低频的纯音可以有效地掩蔽高频的纯音。利用人耳的掩蔽效应，在进行语音压缩时，让量化噪音的频谱跟随语言信号频谱包络变化。则共振峰的频率成分就会掩蔽掉量化噪声。这个技术称为噪声整形或听觉加权处理。低音容易掩蔽高音，而高音掩蔽低音较难。基于此，可以将真实的声音频率映射到“感知”频率尺度，即Bark尺度对应的临界带宽。 2.4.3 临界带宽与频率群用一中心频率为f，带宽为Δf的白噪声来掩蔽一频率为f的纯音，先将这个白噪声的强度调节到使被掩蔽纯音恰好听不见为止。然后将Δf由大到小逐渐变化，而保持单位频率的噪声强度（即噪声谱密度）不变，起初这个纯音一直是听不见的，但当Δf小到某个临界值