第二节语音信号处理基础.pptVIP

下载本文档

5
0
约4.84千字
约 40页
2018-06-16 发布于安徽
举报
版权申诉

第二节语音信号处理基础.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

语音信号产生的数字模型在这个模型中，除了G（z）和R（z）保持不变以外，基音频率、Av 、 Au 、清/浊开关的位置以及声道模型中的参数都是随时间变化而变化的。由于发声器官的惯性使这些参数的变化速度受到限制。对于声道参数而言，在10~30ms的时间间隔内可以认为它们保持不变，因此语音的短时分析帧长一般取为10~30ms。需注意的是：把激励简单分为周期脉冲激励和噪声激励是与实际情况不完全符合。如果将模型的激励源改为上述两种激励按任何比例相叠加，这更加接近于实际情况。这个模型的传输函数不包含有限传输零点，而像鼻音、擦音这样一些音的声道传输函数中包含有限零点的。解决方法就是适当提高阶数p，使得全极点模型更好得逼近具有零点的传输函数。语音感知语音感知-声音三要素任何声音可用声强（或声压）的三个物理量表示：即幅度、频率、相位。对应人的感知，可用另外三要素描述：即响度、音调和音色。音色:亦称音质，反映声音属性。每个人声音具有特殊的音色，人根据音色在主观感觉上区别具有相同响度和音调的两个声音。响度:测量声音强弱的物理量为声强，单位为W/m2（瓦/米2）；主观感受声音强弱的单位是宋：sone。语音感知响度当声音的强度小到人耳刚刚能够听见时，称为听阈。听阈是随频率变化而变化的。如果加大声音的强度，使它大到人耳感到疼痛，这个阈值称为痛阈。听阈和痛阈之间是人耳的范围，为0~120dB声强级（1012倍以上）。人耳对2k~4kHz声音的音强的感觉最灵敏。语音感知音调：亦称音高，与频率有关，单位为美尔（Mel）。频率低的声音听起来感觉它的音调低，频率高的音调高。但是音调与频率不成正比，它还与声音的强度及波形有关。音调与频率的关系近似为：语音感知掩蔽效应掩蔽效应是一种常见的心理声学现象。当两个响度不同的声音作用与人耳时，则响度较高的频率成分的存在会影响到对响度较低的频率成分的感受，使其变得不易察觉，这种现象称为掩蔽效应。 1）同时掩蔽和异时掩蔽同时掩蔽：发生在掩蔽者和被掩蔽者同时存在时，亦称频率掩蔽，声音能否听到取决于频率和强度。语音感知异时掩蔽：发生在掩蔽者和被掩蔽者不同时存在时，亦称时域掩蔽。有两类：前掩蔽（pre-masking）：发生在掩蔽者开始之前的一段时间，一般可持续20ms。后掩蔽（post-masking）：发生在掩蔽者结束之后的一段时间，一般可持续100ms。掩蔽阈值取决于掩蔽者的音调、频率、声压级和持续时间。语音感知各种不同的掩蔽效果掩蔽者有三种类型：纯音调、宽带噪声和窄带噪声，掩蔽者和被掩蔽者组合后产生不同的掩蔽效果。纯音调信号间的掩蔽宽带噪声对纯音调的掩蔽：掩蔽者为宽带噪声，被掩蔽者为纯音调信号。窄带噪声对纯音调的掩蔽：掩蔽者为窄带噪声，被掩蔽者为纯音调信号。是一种比较复杂的掩蔽效应。语音感知临界带宽：为了描述窄带噪声对纯音调信号的掩蔽效应，引入临界带宽概念。一个纯音可被以它为中心频率，且具有一定宽带的连续噪声所掩蔽，若在这一频带内噪声功率等于纯音的功率，则该纯音处于刚好能被听到的临界状态，即称带宽为临界带宽。临界频带的位置不固定，以任何频率为中心都有一个临界频带。连续的临界带序号记为临界带频域，或称为Bark域。常将20Hz~16KHz间的频率用24个频率群来划分，或者说共有24个Bark域。语音感知临界带宽表语音感知上述的掩蔽效应可从听觉生理上找到依据，人耳的基底膜具有与频谱分析仪相似的作用，频率群的划分相应地将基底膜分成许多小部分，每一小部分对应一个频率群。掩蔽效应就在频率群内发生。 . 语音信号的产生 1 语音信号的特性 2 语音信号产生的数字模型 3 语音感知 4 语音的产生声音是一种波形：振动频率在20-20KHz,如乐器声、雷声、风声、雨声等；语音是声音的一种，由人发音器官发出，具有一定的语法和语义，语音的最高频率可达15KHz,一般可听的语音频率为80Hz~3.5KHz; 音乐（音频）也是声音的一种，由人发音器官及乐器混合发出，具有一定的语法和语义，一般可听的音频频率为20Hz~22KHz; 语音的产生人的说话过程分为5个阶段： 1）想说阶段：客观现实→大脑反映→说话动机→神经中枢→想表达内容和情感； 2)说出阶段：神经中枢→发出指令→各器官协调→发音（机能效果）→反馈→修正； 3)传送阶段（物理过程）：语音（声波）→媒介（空气）→听者（可能会产生失真或损耗）语音的产生人的说话过程分为5个阶段： 4）接受阶段：外耳→中耳放大→内耳（基底膜振动）→神经元（产生脉冲）→大脑； 5）理解阶段：神经中枢→脉冲信息→辨认信息（如何辨认，尚未知）。 5个阶段有心理、生理