广州大学数字语音复习资料(复好了必过).pptVIP

下载本文档

3
0
约9.12千字
约 67页
2017-08-15 发布于广东
举报
版权申诉

广州大学数字语音复习资料(复好了必过).ppt

1、本文档共67页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

广州大学数字语音复习资料(复好了必过)

数字语音处理总复习语音信号处理的实质学科基础以语音语言学和数字信号处理为基础而形成的一门涉及面很广的学科,与语言学、声学、认知科学、心理学、生理学、计算机科学、通信与信息科学、模式识别和人工智能等学科均有密切的关系。用数字化的方法进行语音的传送、存储、合成、识别和增强等技术是整个数字化通信网中最重要最基本的组成部分。语音信号的数字处理方法语音信号的特点—短时平稳性短时时域处理方法—短时能量、短时平均过零率以及短时自相关函数计算短时频域分析—短时傅立叶分析线性预测技术—本质上属于时域分析方法，但其结果可以是频域参数倒谱和同态分析、矢量量化和隐马尔可夫模型语音压缩和编码—语音通信数字化；语音合成—自动报站、自动报时、自动警告、电话自动查询和语音提示等；语音识别—声控应用、自动口语翻译；说话人识别—安全加密、银行信息电话查询服务以及破案和法庭取证；语音增强—通常作为语音处理的前端。语音信号处理基础知识 2.语音产生过程语音的形成过程—空气由肺部排入喉部，经过声带进入声道，最后由嘴辐射出声波，形成语音。浊音(Voiced sounds) ：声带绷紧，气流通过时会使得开口变成一开一闭的周期性动作，这时候就造成周期性的激发气流，如a，o；清音（Unvoiced or Fricative sounds）：声带完全舒展，声道某部位收缩形成一个狭窄的通道，产生空气湍流，如t，d；爆破音：声带完全舒展，声道的某部位完全闭合，一旦闭合点突然开启，空气压力快速释放，如b，p。能被人耳听到，它的振动频率在20～20 000 Hz之间 2. 语音产生过程语音的两个重要声学特性：浊音的基音频率(F0)：由声带的尺寸、特性和声带所受张力决定，其值等于声带张开和闭合一次的时间的倒数。人类基音频率的范围在80～500 Hz左右。共振峰(Fn , n=1,2,...)：声道是一个谐振腔，它放大声音气流的某些频率分量而衰减其他频率分量，被放大的频率我们称之为共振峰或共振峰频率。声道具有的一组共振峰，声道的频谱特性主要反映出这些共振峰的不同位置以及各个峰的频带宽度。共振峰及其带宽取决于声道某一瞬间的形状和尺寸，因而不同的语音对应于一组不同的共振峰参数。实际应用中，头三个共振峰最重要,越多越精确。语音信号产生的数字模型数字语音信号表示（Representations of Speech Signals） (1)激励模型由此模型框图，我们可将语音信号看成准周期序列或随机噪声序列作为激励的线性非移变系统的输出，此模型可分为三个部分：激励模型、声道模型、辐射模型激励模型根据发浊音和发清音的机理又分为：(a)浊音激励 (b)清音激励 (a)浊音激励由前面所讲发音过程可知，发浊音时声带不断地张开和闭合将产生间歇的准周期性脉冲波，其周期为基音周期，单个脉冲的波形类似于斜三角波，故数字模型中可用周期为T0单位取样序列串作为声门脉冲模型g(n)的输入，其输出就是浊音激励。由于人类语音的频率范围主要集中在300Hz~3400Hz，数字模型中的信号取样率一般为8KHz。 (b)清音激励发清音时声道被阻碍形成湍流，所以可把清音激励模拟成随机白噪声。此处用均值为0方差为1并在幅值上为平稳分布的序列, 具体实现时可采用随机噪声发生器来产生此序列。 (2)声道模型两种建模方法：(a)声管模型(b)共振峰模型共振峰模型将声道视为一个谐振腔，按此原则导出。基于各种音素发音的不同谐振特点可建立起三种实用的共振峰模型： (a)级联型 (b)并联型 (c)混合型 (a)级联型：适用于一般单元音,认为声道是一组串联的二阶谐振器： (b)并联型适用于鼻音、复合元音及大部分辅音，发这些音时发音腔体具有反谐振特性，必须在模型中加入零点以减弱谐振强度，故要考虑用零、极点模型：前面两种共振峰模型各自都只能适用于部分语音，级联或并联的级数取决于声道的长度，一般成人取3到5级。级联型结构较为简单，并联型各谐振器幅度可独立控制,综合考虑两者的优缺点可将两种共振峰模型有机地结合起来就得到一种较为完备的共振峰模型。在发音腔道内形成的气流经由嘴唇端辐射出来，到达听者耳朵的这段过程，声音信号会衰减，而且有高通滤波的特性，我们常用一个一阶的数字高通滤波器拟这个现象，这个滤波器又叫做辐射模型(radiation model)，其数学式如下 (c)混合型我们可以根据发音的需要自动切换串联或并联通路，此外并联部分还有一条直通路径，其幅度控制因子为AB，这是专为一些