第2讲 语音信号处理基础知识[精选].pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第2讲 语音信号处理基础知识[精选]

语音中包含的信息 语言(文字) 说话人信息:身份、性别、年龄 方言:认老乡的主要依据 情感(情绪) 语种:国外找“亲人”的主要信息来源 说话方式(快、慢、耳语) 语音品质(口语、朗诵、流畅性、动听度) 健康状况:特别是发音器官病变 重要概念 语音 音节 元音、辅音 清音、浊音 声母、韵母 共振峰、音色 语谱图、声纹 语音 语音(Speech)=声音(Acoustic)+语言(Language),是二者的组合体 语音是由一连串的音组成语言的声音 语音学(Phonetics)是研究言语过程的一门科学。 它考虑的是语音产生、语音感知等的过程以及语音中各个音的特征和分类等问题。 现代语音学发展成为三个主要分 支: 发音语音学 声学语音学 听觉语音学 2.2 语音和语言 当声带振动发出的声音气流从喉腔、咽腔进入口腔从唇腔出去时,这些声腔完全开放,气流顺利通过,这种音称为元音。 声门及声门波 声道模型 级联型 声道模型 并联型 声道模型 混合型共振峰模型 Waveform for “Kaimen” 语谱图的解读 横杠(Bar):与时间轴平行 深黑色带纹 对应 共振峰、带宽 竖直条:与时间垂直的窄黑条 对应基频 条纹的起点对应声门脉冲的起点 条纹之间的距离表示基音周期 乱纹:清擦音 语谱图中显示了大量的与语音的语句特性有关的信息,它综合了频谱图和时域波形的特点,明显地显示出语音频谱随时间的变化情况,或者说是一种动态的频谱。记录这种谱图的仪器就是语谱仪。 关于声学特性在上面已经作了简单的介绍,下面主要就语音信号的时域波形和频谱特性以及语音信号的统计特性等进行分析。 另外,这种模型是“短时”的模型,因为一些语音信号的变化是缓慢的,例如元音在10~20ms内其参数可假定不变。这里声道转移函数是一个参数随时间缓慢变化的模型。另外,这一模型认为语音是声门激励源激励线性系统---声道所产生的。 图上标明了时间及各个音节的起始位置。由于在时域波形里各个单音节间不好明显地分界,因此,图上标出的某个音的起点只是粗略的。观察语音信号时间波形的特性,可以通过对语音波形的振幅和周期性来观察不同性质的音素的差别。从上图可以看出,清辅音[s][k]和元音[ou] [e]这两类音的时间波形有很大区别。例如,从A点开始的音节[s],以及从C点开始的[k]都是清辅音,;而从B点开始的元音[ou]以及从D点开始的[e]都具有明显的周期性,且振幅较大。它们的周期对应的就是声带振动的频率,即基音频率,它是声门脉冲的间隔。如果考察其中一小段元音语音波形,从它的频谱特性大致可以看出它们的共振峰特性。 语音听觉系统 人的听觉系统有两个重要特性,一个是耳蜗对于声信号的时频分析特性;另一个是人耳听觉掩蔽效应。 如果信号是一个多频率信号,则产生的行波将沿着基底膜在不同的位置产生最大幅度。从这个意义上讲,耳蜗就象一个频谱分析仪,将复杂的信号分解成各种频率分量。 并非所有的声音都能被人耳听到,这取决于声音的强度和其频率范围。心理声学中的听觉掩蔽效应是指,在一个强信号附近,弱信号将变得不可闻,被掩蔽掉了。 时间掩蔽:同时掩蔽和短时掩蔽 频率掩蔽 2.1概述 2.2语音和语言 2.3汉语语音学 2.4语音生成系统和语音感知系统 2.5语音信号生成的数学模型 2.6语音信号的特性分析 2.5 语音信号生成的数学模型 所谓建立数学模型就是要寻求一种可以表达一定物理状态下量与量之间关系的数学表示。 建立语音信号的数字模型,才能用计算机来定量地对语音信号进行模拟和处理。所以语音信号生成的数学模型是语音信号处理的基础。 2.5 语音信号生成的数学模型 理想的模型是线性的和时不变的。 语音信号是非平稳随机过程,其特性是随着时间变化的,所以模型中的参数应该是随时间而变化的。但语音信号特性随着时间变化是很缓慢的。所以可以作出一些合理的假设,将语音信号分为一些相继的短段进行处理,在这些短段中可以认为语音信号特性是不随着时间变化的平稳随机过程。这样在这些短段时间内表示语音信号时,可以采用线性时不变模型。 激励模型 激励模型一般分成浊音激励和清音激励来讨论。发浊音时,由于声带不断张开和关闭,将产生间歇的脉冲波。这个脉冲波的波形类似于斜三角形的脉冲,它的数学表达式如下: N1为斜三角波上升部分的时间,N2为其下降部分的时间。 喉内窥镜图像 声门波曲线 激励模型 单个斜三角波波形的频谱的图形如图2-18所示。由图可见,它是一个低通滤波器。它的变换的全极模型的形式是: c是一个常数。显然,上式表示斜三角波形可描述为一个二极点的模型。因此

文档评论(0)

ustt001 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档