第2讲语音信号处理基础知识幻灯片.ppt

下载文档

2
0
约8.43千字
约 61页
2018-03-23 发布于广东
举报
版权申诉
保障服务

第2讲语音信号处理基础知识幻灯片.ppt

1、本文档共61页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

另外，这种模型是“短时”的模型，因为一些语音信号的变化是缓慢的，例如元音在10~20ms内其参数可假定不变。这里声道转移函数是一个参数随时间缓慢变化的模型。另外，这一模型认为语音是声门激励源激励线性系统---声道所产生的。关于声学特性在上面已经作了简单的介绍，下面主要就语音信号的时域波形和频谱特性以及语音信号的统计特性等进行分析。图上标明了时间及各个音节的起始位置。由于在时域波形里各个单音节间不好明显地分界，因此，图上标出的某个音的起点只是粗略的。观察语音信号时间波形的特性，可以通过对语音波形的振幅和周期性来观察不同性质的音素的差别。从上图可以看出，清辅音[s][k]和元音[ou] [e]这两类音的时间波形有很大区别。例如，从A点开始的音节[s]，以及从C点开始的[k]都是清辅音，；而从B点开始的元音[ou]以及从D点开始的[e]都具有明显的周期性，且振幅较大。它们的周期对应的就是声带振动的频率，即基音频率，它是声门脉冲的间隔。如果考察其中一小段元音语音波形，从它的频谱特性大致可以看出它们的共振峰特性。语谱图中显示了大量的与语音的语句特性有关的信息，它综合了频谱图和时域波形的特点，明显地显示出语音频谱随时间的变化情况，或者说是一种动态的频谱。记录这种谱图的仪器就是语谱仪。语音听觉系统人的听觉系统有两个重要特性，一个是耳蜗对于声信号的时频分析特性；另一个是人耳听觉掩蔽效应。如果信号是一个多频率信号，则产生的行波将沿着基底膜在不同的位置产生最大幅度。从这个意义上讲，耳蜗就象一个频谱分析仪，将复杂的信号分解成各种频率分量。并非所有的声音都能被人耳听到，这取决于声音的强度和其频率范围。心理声学中的听觉掩蔽效应是指，在一个强信号附近，弱信号将变得不可闻，被掩蔽掉了。时间掩蔽：同时掩蔽和短时掩蔽频率掩蔽 2.1概述 2.2语音和语言 2.3汉语语音学 2.4语音生成系统和语音感知系统 2.5语音信号生成的数学模型 2.6语音信号的特性分析 2.5 语音信号生成的数学模型所谓建立数学模型就是要寻求一种可以表达一定物理状态下量与量之间关系的数学表示。建立语音信号的数字模型，才能用计算机来定量地对语音信号进行模拟和处理。所以语音信号生成的数学模型是语音信号处理的基础。 2.5 语音信号生成的数学模型理想的模型是线性的和时不变的。语音信号是非平稳随机过程，其特性是随着时间变化的，所以模型中的参数应该是随时间而变化的。但语音信号特性随着时间变化是很缓慢的。所以可以作出一些合理的假设，将语音信号分为一些相继的短段进行处理，在这些短段中可以认为语音信号特性是不随着时间变化的平稳随机过程。这样在这些短段时间内表示语音信号时，可以采用线性时不变模型。激励模型激励模型一般分成浊音激励和清音激励来讨论。发浊音时，由于声带不断张开和关闭，将产生间歇的脉冲波。这个脉冲波的波形类似于斜三角形的脉冲，它的数学表达式如下： N1为斜三角波上升部分的时间，N2为其下降部分的时间。喉内窥镜图像声门波曲线声门及声门波激励模型单个斜三角波波形的频谱的图形如图2-18所示。由图可见，它是一个低通滤波器。它的变换的全极模型的形式是： c是一个常数。显然，上式表示斜三角波形可描述为一个二极点的模型。因此，斜三角波形串可视为加权了单位脉冲串激励上述单个斜三角波模型的结果。激励模型单位脉冲串及幅值因子则可表示成下面的z变换形式：所以，整个浊音激励模型可表示为：也就是说浊音激励波是一个以基音周期为周期的斜三角脉冲串。声道模型目前最常用的有两种：声管模型、共振峰模型声管模型：把声道视为由多个等长的不同截面积的管子串联而成的系统。共振峰模型：把声道视为一个谐振腔。共振峰就是这个腔体的谐振频率。由于人耳听觉的柯替氏器官的纤毛细胞就是按频率感受而排列其位置的，所以这种共振峰的声道模型方法是非常有效的。一般来说，一个元音用前三个共振峰来表示就足够了；而对于较复杂的辅音或鼻音，大概要用到前五个以上的共振峰才行。基于物理声学的共振峰理论，可以建立起三种实用的共振峰模型：级联型、并联型和混合型。声道模型级联型这时认为声道是一组串联的二阶谐振器。从共振峰理论来看，整个声道具有多个谐振频率和多个反谐振频率，所以它可被模拟为一个零极点的数学模型；但对于一般元音，则用全极点模型就可以了。传输函数可分解表示为多个二阶极点的网络的串联：声道模型级联型声道模型并联型对于非一般元音以及大部分辅音，必须考虑采用零极点模型。此时，模型的传输函数如下：通常，NR，且设分子与分母无公因子及分母无重根，则上式可分解为如下部分分式之和的形式：这就是并联型