- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
语音中包含的信息 语言(文字) 说话人、性别 方言:认老乡的主要依据 情感(情绪) 语种:国外找“亲人”的主要信息来源 说话方式(快、慢、耳语) 语音品质(口语、朗诵、流畅性、动听度) 健康状况:特别是发音器官病变 重要概念 语音 音节 元音、辅音 清音、浊音 声母、韵母 共振峰、音色 语谱图、声纹 语音 语音(Speech)=声音(Acoustic)+语言(Language),是二者的组合体 语音是由一连串的音组成语言的声音 语音学(Phonetics)是研究言语过程的一门科学。 它考虑的是语音产生、语音感知等的过程以及语音中各个音的特征和分类等问题。 现代语音学发展成为三个主要分 支: 发音语音学 声学语音学 听觉语音学 重要概念 语音 元音、辅音 清音、浊音 声母、韵母 音节 共振峰、音色 语谱图、声纹 2.2 语音和语言 当声带振动发出的声音气流从喉腔、咽腔进入口腔从唇腔出去时,这些声腔完全开放,气流顺利通过,这种音称为元音。 重要概念 语音 音节 元音、辅音 清音、浊音 声母、韵母 共振峰、音色 语谱图、声纹 声道模型 级联型 声道模型 并联型 声道模型 混合型共振峰模型 语谱图的解读 横杠(Bar):与时间轴平行 深黑色带纹 对应 共振峰、带宽 竖直条:与时间垂直的窄黑条 对应基频 条纹的起点对应声门脉冲的起点 条纹之间的距离表示基音周期 乱纹:清擦音 图上标明了时间及各个音节的起始位置。由于在时域波形里各个单音节间不好明显地分界,因此,图上标出的某个音的起点只是粗略的。观察语音信号时间波形的特性,可以通过对语音波形的振幅和周期性来观察不同性质的音素的差别。从上图可以看出,清辅音[s][k]和元音[ou] [e]这两类音的时间波形有很大区别。例如,从A点开始的音节[s],以及从C点开始的[k]都是清辅音,;而从B点开始的元音[ou]以及从D点开始的[e]都具有明显的周期性,且振幅较大。它们的周期对应的就是声带振动的频率,即基音频率,它是声门脉冲的间隔。如果考察其中一小段元音语音波形,从它的频谱特性大致可以看出它们的共振峰特性。 语音听觉系统 人耳由内耳、中耳和外耳三部分组成。 外耳由耳翼、外耳道和鼓膜构成。外耳在对声音的感知中起着声源定位和声音放大的作用。 中耳包括由锤骨、砧骨和镫骨这三块听小骨构成的听骨链以及咽鼓管等组成。中耳的作用是进行声阻抗的变换,即将中耳两端的声阻抗匹配起来,同时对内耳起着保护的作用 。 内耳的主要构成器官是耳蜗(Cochlea)。它是听觉的受纳器,把声音通过机械变换产生神经发放信号。 语音听觉系统 人的听觉系统 语音听觉系统 人的听觉系统有两个重要特性,一个是耳蜗对于声信号的时频分析特性;另一个是人耳听觉掩蔽效应。 如果信号是一个多频率信号,则产生的行波将沿着基底膜在不同的位置产生最大幅度。从这个意义上讲,耳蜗就象一个频谱分析仪,将复杂的信号分解成各种频率分量。 并非所有的声音都能被人耳听到,这取决于声音的强度和其频率范围。心理声学中的听觉掩蔽效应是指,在一个强信号附近,弱信号将变得不可闻,被掩蔽掉了。 时间掩蔽:同时掩蔽和短时掩蔽 频率掩蔽 2.1概述 2.2语音和语言 2.3汉语语音学 2.4语音生成系统和语音感知系统 2.5语音信号生成的数学模型 2.6语音信号的特性分析 2.5 语音信号生成的数学模型 所谓建立数学模型就是要寻求一种可以表达一定物理状态下量与量之间关系的数学表示。建立了语音信号的数字模型,才能够用计算机来定量地对语音信号进行模拟和处理。所以语音信号生成的数学模型是语音信号处理的基础。 2.5 语音信号生成的数学模型 理想的模型是线性的和时不变的。语音信号是非平稳随机过程,其特性是随着时间变化的,所以模型中的参数应该是随时间而变化的。但语音信号特性随着时间变化是很缓慢的。所以可以作出一些合理的假设,将语音信号分为一些相继的短段进行处理,在这些短段中可以认为语音信号特性是不随着时间变化的平稳随机过程。这样在这些短段时间内表示语音信号时,可以采用线性时不变模型。 激励模型 激励模型一般分成浊音激励和清音激励来讨论。发浊音时,由于声带不断张开和关闭,将产生间歇的脉冲波。这个脉冲波的波形类似于斜三角形的脉冲,它的数学表达式如下: 式中,N1为斜三角波上升部分的时间,N2为其下降部分的时间。单个斜三角波波形的频谱的图形如图2-18所示。由图可见,它是一个低通滤波器。它的变换的全极模型的形式是: 激励模型 这里,c是一个常数。显然,上式表示斜三角波形可描述为一个二极点的模型。因
文档评论(0)