- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
语音信号处理第3版第2讲选编
2.1语音发音及感知系统
2.2语音信号生成的数学模型
2.3语音基本概念与参数
2.4语音信号的数字化和预处理
2.5语音信号的应用
;语音信号处理:研究用数字信号处理技术对语音信号进行处理的一门学科
目的:
(1)通过处理得到一些反映语音信号重要特征的语音参数,以便高效地传输或存储语音信号信息
(2)通过处理的某种运算已达到某种用途的要求;人们讲话时发出的话语叫语音,它是一种声音,具有称为声学特征的物理特性。语音(Speech)是声音(Acoustic)和语言(Language)的组合体。可以这样定义语音:语音是由一连串的音组成语言的声音。
人的发音器官包括:肺、气管、喉(包括声带)、咽、鼻和口。喉的部分为声门。从声门到嘴唇的呼气通道叫做声道,声道形状的不断改变。发出不同的语音。 ;语音是由肺至唇各种器官作用而发出的,其作用的方式有3种:
(1)把肺部呼出的直气流变为音源
(2)对音源起共振和反共振的作用,使之带有音色
(3)从唇或鼻向空间辐射
对发音影响最大的是声带,每开启和闭合一次的时间即声带的共振周期,就是音调周期或基音周期,其倒数为基音频率(其范围随发音人的性别、年龄而定)。E.g.老年男性偏低,小孩和青年女性偏高
基音频率决定了声音频率的高低,频率快则音调高,频率慢则音调低。;人的听觉系统是一个十分巧妙的音频信号处理器。主要完成声音的采集、频率分解、声能转换、声音加工和分析以及感觉声音的音色、音调、音强、判断方位等功能。
听觉具有选择性:能被人耳听到的声音取决于声音的强度和频率范围。(一般人可以感觉到20Hz~20kHz,强度为-5dB~130dB的声音信号)
听觉具有掩蔽效应:指在一个强信号附近,弱信号将变得不可闻,被掩蔽掉了。; 2.2 语音信号生成的数学模型
理想的模型是线性的和时不变的。语音信号是非平稳随机过程,其特性是随着时间变化的,所以模型中的参数应该是随时间而变化的。但语音信号特性随着时间变化是很缓慢的。所以可以作出一些合理的假设,将语音信号分为一些相继的短段进行处理,在这些短段中可以认为语音信号特性是不随着时间变化的平稳随机过程。这样在这些短段时间内表示语音信号时,可以采用线性时不变模型。 ;激励模型
激励模型一般分成浊音激励和清音激励来讨论。
浊音激励模型:由于声带不断张开和关闭,将产生间歇的脉冲波。这个脉冲波的波形类似于斜三角形的脉冲,它的数学表达式如下:
式中,N1为斜三角波上升部分的时间,
N2为其下降部分的时间。;激励模型
浊音激励:单个斜三角波的Z变换的全极模型的形式是:
c是常数。上式表示斜三角波形可描述为一个二极点模型。
斜三角波形串可视为加权了单位脉冲串激励上述单个斜三角波模型的结果。
;激励模型
单位脉冲串及幅值因子则可表示成下面的z变换形式:
所以,整个浊音激励模型可表示为:
也就是说浊音激励波是一个以基音周期为周期的斜三角脉冲串。
;激励模型
清音激励模型:模拟成随机白噪声,实际中一般使用均值为0,方差为1,并在时间(幅值) 上为白色分布的序列
; 声道模型——声道部分的模型
目前最常用的有2种建模方法。
(1)是把声道视为由多个等长的不同截面积的管子串联而成的系统,即“声管模型”。
(2)是把声道视为一个谐振腔,即“共振峰模型”。
共振峰模型,把声道视为一个谐振腔。共振峰就是这个腔体的谐振频率,表达式:
i=1,2,…表示共振峰序号,c为声速,L为声管长度;基于物理声学的共振峰理论,可以建立起三种实用的
共振峰模型:级联型、并联型和混合型。
声道模型 级联型
声道是一组串联的二阶谐振器。从共振峰理论来看,整个声道具有多个谐振频率和多个反谐振频率,所以它可被模拟为一个零极点的数学模型;但对于一般元音,则用全极点模型就可以了。它的传输函数可分解表示为多个二阶极点的网络的串联:
;幅值因子;声道模型 并联型
对于非一般元音以及大部分辅音,必须考虑采用零极点模型。此时,模型的传输函数如下:
上式可分解为如下部分分式之和的形式:
这就是并联型的共振峰模型。如图2-21所示(M=5)。 ;声道模型 并联型;声道模型 混合型
上述两种模型中,级联型比较简单,可以用于描述一般元音。当鼻化元音或鼻腔参与共振,以及阻塞音或摩擦音等情况时,级联模型就不能胜任了。
这时腔体具有反谐振特性,必须考虑加入零点,使之成为零极点模型。对于鼻音、塞音、擦音以及塞擦音等都可以适用。
正因为如此,将级联模型和并联模型结合起来的混合模型也许是比较完备的一种共振峰模型。
;声道模型 混合型共振峰模型
;辐射模型
从声道模型输出的是速度波 ,而语音信号是声压波 ,二者之倒比称为辐射阻抗 。它表征口唇的辐射效应,也包括圆形的头部的绕射效应等。
文档评论(0)