- 1、本文档共73页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
2.2语音的听觉机理 语音信号首先通过一串带通滤波器(BPF)阵列,其中心频率跟随着图2.6所示的基底膜频率响应按照对数尺度分布。每一个带通滤波器都被独立的设定为有限冲激响应滤波器(FIR)或无限冲激响应滤波器(IIR),但是频率响应的波形并不是严格精确的。 2.2语音的听觉机理 被滤波的信号在通过内毛细胞/突触模型之后,到达听传导通路模型。虽然各种听觉模型的带通滤波器的性能特征是基本相同的,但是在接下来几级的信号处理过程却有很大差异。事实上,不同的听觉模型都各自拥有不同的IHC模型,突触模型和听传导通路模型。一些模型为每一个滤波后的信号都设有独立的频道,而另一些模型则认为在基底膜上相邻位置处滤波得到的信号之间存在耦合性。 2.2语音的听觉机理 根据人耳的听觉特性得出的模型作为语音识别的特征提取部分,可获得具有鲁棒性的特征参数,它们对真实世界中的噪音环境下的语音识别都表现出很好的性能。随着人类对自身听觉机理认识的不断深入,相信在不远的将来语音识别器的性能会越来越接近人耳的听觉性能。 2.2语音的听觉机理-语音的感知 1.人耳听觉界限的频率范围大约为16Hz-16kHz。 2.语音感知的强度范围是0-130dB声压级。 3.人耳刚刚可以听到的声音强度,称为“听阈”。 4.加大声音的强度,使听起来令耳朵感到疼痛,这个阈值称为“痛阈”。 5. 音高(音调) 音高也叫基音。物理单位为Hz,主观感觉的音高单位是美(Mel)。当声强级为40dB频率为1kHz时,设定的音高为1000美。 2.2语音的听觉机理-语音的感知 6. 掩蔽效应 一个声音的听觉感受性受同时存在的另外一个声音的影响,这个现象称为人耳的“掩蔽效应”。此时前者称为被掩蔽音,后者称为掩蔽音。在掩蔽情况下,被隐蔽音的听阈会提高,即加大被掩蔽音的强度才能听到。此时听阈称为掩蔽听阈。 2.2语音的听觉机理-语音的感知 低频的纯音可以有效地掩蔽高频的纯音。对于中等掩蔽强度来说,纯音最有效的掩蔽出现在它的频率附近。 利用人耳的掩蔽效应,在进行语音压缩时,让量化噪音的频谱跟随语言信号频谱包络变化。这时共振峰的频率成分就会掩蔽掉量化噪声。这个技术称为噪声整形或听觉加权处理。 2.3 语音信号模型 有三部分作用施加在语音的声波上: 声门产生的激励模型G(z); 声道产生的调制函数V(z); 嘴唇产生的辐射函数R(z)。 语音信号的传递函数由这三个函数级联而成,即: H(z)=G(z)V(z)R(z) 1 二元激励模型 ? 发浊音时,由于声门不断开启和关闭,产生间隙的脉冲。经仪器测试它类似于斜三角形的脉冲。? 1 二元激励模型 由图2.11可以看出单个斜三角波的频谱G(ejω)表现出一个低通滤波器的特性。可以把它表示成z变换的全极点形式: 1 二元激励模型 因此,作为激励的斜三角波串可以用一串加了权的单位脉冲序列去激励上述单位斜三角波模型实现。这个单位脉冲串和幅值因子可以表示成下面的Z变换形式? 1 二元激励模型 所以浊音激励模型可表示为 在发清音的场合,声道被阻碍形成湍流。所以可以模拟成随机白噪声。 2 声道模型-(1)共振峰模型 典型的声道模型有两种。即:无损声管模型和共振峰模型。通过两种方法得到的数字模型本质上没有区别。 (1) 共振峰模型 当声波通过声道时,受到声腔共振的影响,在某些频率附近形成谐振。反映在信号频谱图上,在谐振频率处其谱线包络产生峰值,一般把它叫作共振峰,如图2.12。 2 声道模型- (1)共振峰模型 2 声道模型- (1)共振峰模型 从物理声学可以容易推导出均匀断面的共振峰频率。例如对成人声道17cm长,其共振频率计算公式为: i是共振频率的序号,c为声波的速度,横截面积为5cm2,L为声管长度。按此算出前三个共振频率为:F1=500Hz ,F2=1500Hz ,F3=2500Hz 。由于发音时,声道的形状很少是均匀断面的。因此必须通过语音信号来计算共振峰。 2 声道模型- (1)共振峰模型 一个二阶谐振器的传输函数可以写成 它的频谱特性如图2.13所示,实践表明,用前三个共振峰代表一个元音足够了。多个Vi叠加可以得到声道的共振峰模型: (2) 无损声管模型 无损声管模型是假定声道由多个等长的不同截面积的管子串联而成的系统,并假定管子中的流体及管壁没有热传导和粘滞的损耗。在短时间内,声道可表为形状稳定的管道,并可以认为声波是沿管轴传播的平面波,如图2.14所示。 (2) 无损声管模型 (2) 无损声管模型 对于N个无损声管级联的情况,通过数学推导和归纳法,忽略系统延迟,可得到无损声管的传递函数为: 3 辐射模型 从声道模型输出的
文档评论(0)