网站大量收购独家精品文档,联系QQ:2885784924

语音的产生机理.ppt

  1. 1、本文档共128页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
声纹识别技术的优缺点 缺点: 1.同一个人的声音具有易变性,易受身体状况、年龄、情绪等的影响; 2.不同的麦克风和信道对识别性能有影响; 3.环境噪音对识别有干扰; 4.混合说话人的情形下人的声纹特征不易提取等等 Questions? * * 一般所说的平稳是指宽平稳,即其一阶矩为常数,二阶矩与信号时间的起始点无关,只和起始时间差有关。 * 什么是共振峰? 共振峰是指在声音的频谱中能量相对集中的一些区域,共振峰不但是音质的决定因素,而且反映了声道(共振腔)的物理特征。声音在经过共振腔时,受到腔体的滤波作用,使得频域中不同频率的能量重新分配,一部分因为共振腔的共振作用得到强化,另一部分则受到衰减,得到强化的那些频率在时频分析的语图上表现为浓重的黑色条纹。由于能量分布不均匀,强的部分犹如山峰一般,故而称之为共振峰。 在人声和大多数乐器的很宽的频谱分布中都存在一些固定的频率峰值(Formant Synthesis),这种频率峰值在声音频谱中就叫做共振峰(Formants)。 在语音声学中,共振峰决定着元音的音质,而在计算机音乐中,它们是决定音色和音质的重要参数。 * 共振峰产生的原理及其在音质上的体现 共振峰的分布位置是建立在声音产生媒介的共鸣物理结构基础上的(Resonant Physical Structure)。 无论是人声还是乐器,它们的声音特性都源自两个因素,一个是发声系统,如人的声带或乐器的振动簧片,另一个是共鸣系统。乐器不同的共鸣系统使其在一定频域中的分音的振幅得以突出,这样,这些区域就产生了这个乐器所特有的共振峰值,这些共振峰值同共鸣体的大小、形状的材料密切相关。由于一件乐器的结构是稳定的,因此在一件乐器发出的所有音调中,不论基频如何,都会表现出相同的共振峰值,只不过其显著性有强有弱罢了。这就可以帮助我们解释为什么在很多的乐器中,同一乐器所发出的不同音调具有相同的音质。 在语音声学中,人声也同样受自身生理如鼻孔、咽腔、口腔大小的影响有自身的共振峰区(Formant Regions)。通过利用这些共鸣空间的形状和大小不同的变化(例如改变咽喉、嘴形),我们就能改变声音的共振峰。我们之所以能够区分不同的人声、元音,主要也是依靠它们的共振峰分布的位置。 * 共振峰的计算机合成 而在计算机的数字合成环境下,共振峰主要是通过音频数字来计算的。共振峰区尽管不直接与基本频率的音高有关联,但或多或少有间接的影响。如人声的发声,如果基频低于共振峰区,在共振峰区以下,人声的发声就会很丰富饱满,假如基频高于共振峰区,声音就会变形,使人很难发出正确的元音,因为人的生理条件在发出过高的音时会变形,共振峰也会变化。 共振峰合成是一种特殊的但却非常重要的合成理论,有时被看作是加法合成技术理论的一种。很多作曲家,如A.Wayne Slawson曾经精确地使用共振峰理论作为一种作曲要素。 当然,还有许多其他实现音色变化的合成技术,共振峰合成只是适度、精确地达到音色实现效果的其中一种。 * * * MFCC计算过程 计算流程: DFT 时域信号 线性谱域 Mel 滤波器组 Log DCT Mel谱域 对数谱域 MFCC Mel带通滤波 利用D 个三角带通滤波器分别与离散谱{St(k)} 做卷积,其中三角滤波器的中心频率和边界频率与相应的Mel频标对齐(带宽在Mel标度上是相等的) 倒谱系数计算 求出每个频段的对数能量输出 三角滤波器的输出 最后用DCT将这些系数变换到倒谱域 倒谱系数的维数 通常取DCT系数的前12维 声学特征小结 短时平均能量/幅度/功率 短时平均过零率 线性预测系数(LPC) LPC倒谱特征(LPCC) Mel 倒谱参数(MFCC) 内容 历史 2. 语音产生机理 3. 语音特征 4. 系统架构 5. 引言 1. 说话人识别(10/14) 说话人识别模型主要有三类: 基于模板的模型: K-NN (K近邻法) DTW(动态时间规整) VQ(矢量量化) 随机模型: GMM(高斯混合模型) HMM(隐马尔可夫模型) 基于人工神经网络的模型 NN(神经元网络) SVM(支持向量机) 说话人识别(11/14) Feature 1 Feature 2 : class-A point : class-B point : point with unknown class Circle of 3-nearest neighbors The point is class B via 3-NNR. K近邻法 (K-NNR): 1. 对给定的点找到前K个最近的邻居. 2. 对这K个最近的邻居通过投票法决定这个特征点属于哪个类. 说话人识别(12/14) 一维高斯混合模型 二维高斯混合模型 说话人识别(13/

文档评论(0)

新起点 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档