语音信号处理第2节.ppt

  1. 1、本文档共43页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
声道模型 级联型 声道模型 并联型 声道模型 混合型共振峰模型 声道模型 混合型 上述两种模型中,级联型比较简单,可以用于描述一般元音。当鼻化元音或鼻腔参与共振,以及阻塞音或摩擦音等情况时,级联模型就不能胜任了。这时腔体具有反谐振特性,必须考虑加入零点,使之成为零极点模型。采用并联结构的目的就在于此,它比级联型复杂些,每个谐振器的幅度都要独立地给以控制。但对于鼻音、塞音、擦音以及塞擦音等都可以适用。正因为如此,将级联模型和并联模型结合起来的混合模型也许是比较完备的一种共振峰模型。 辐射模型 从声道模型输出的是速度波 ,而语音信号是声压波 ,二者之倒比称为辐射阻抗 。它表征口唇的辐射效应,也包括圆形的头部的绕射效应等。当然,从理论上推导这个阻抗是有困难的。但是如果认为口唇张开的面积远小于头部的表面积,则可近似地看成平板开槽辐射的情况。此时,可推导出辐射阻抗的公式如下: 式中, ,这里, 是口唇张开时的开口半径, 是声波传播速度。图2-24 显示了辐射阻抗的实部和虚部的频率响应曲线。 由辐射引起的能量损耗正比于辐射阻抗的实部,所以辐射模型是一阶类高通滤波器。 语音信号的数学模型 综上所述,完整的语音信号的数字模型可以用三个子模型:激励模型、声道模型和辐射模型的串联来表示。如图所示: 它的传输函数可以表示为: 语音信号的数学模型 这里,U(z)是激励信号,浊音时U(z)是声门脉冲即斜三角形脉冲序列的z变换;在清音的情况下, U(z)是一个随机噪声的z变换。V(z)是声道传输函数,既可用声管模型,也可以共振峰模型等来描述。实际上就是全极点模型: 应该指出,上式所示模型的内部结构并不和语音产生的物理过程相一致,但这种模型和真实模型在输出处是等效的。另外,这种模型是“短时”的模型,因为一些语音信号的变化是缓慢的,例如元音在10~20ms内其参数可假定不变。这里声道转移函数是一个参数随时间缓慢变化的模型。另外,这一模型认为语音是声门激励源激励线性系统---声道所产生的。 2.6 语音信号的特性分析 语音信号的特性主要是指它的声学特性、语音信号的时域波形和频谱特性以及语音信号的统计特性等。关于声学特性在上面已经作了简单的介绍,下面主要就语音信号的时域波形和频谱特性以及语音信号的统计特性等进行分析。 语音信号的时域波形和频谱特性 在时间域里,语音信号可以直接用它的时间波形表示出来,通过观察时间波形可以看出语音信号的一些重要特性。下图是汉语拼音“sou ke”的时间波形。表示这段语音波形时采用的采样频率是8kHz,量化精度是16bit。图上标明了时间及各个音节的起始位置。由于在时域波形里各个单音节间不好明显地分界,因此,图上标出的某个音的起点只是粗略的。观察语音信号时间波形的特性,可以通过对语音波形的振幅和周期性来观察不同性质的音素的差别。 语音信号的时域波形和频谱特性 从上图可以看出,清辅音[s][k]和元音[ou] [e]这两类音的时间波形有很大区别。例如,从A点开始的音节[s],以及从C点开始的[k]都是清辅音,它们的波形类似于白噪声,振幅很小,没有明显的周期性;而从B点开始的元音[ou]以及从D点开始的[e]都具有明显的周期性,且振幅较大。它们的周期对应的就是声带振动的频率,即基音频率,它是声门脉冲的间隔。如果考察其中一小段元音语音波形,从它的频谱特性大致可以看出它们的共振峰特性。 语音信号的时域波形和频谱特性 语音信号属于短时平稳信号,一般认为在10~30ms内语音信号特性基本上是不变的,或者变化很缓慢。于是,可以从中截取一小段进行频谱分析。下图给出“sou”中音素“ou”的傅里叶变换 : 频率/kHz 幅度/dB 语音信号的语谱图 语音的时域分析和频域分析是语音分析的两种重要方法。显然这两种单独分析的方法均有局限性:时域分析对语音信号的频率特性没有直观的了解;而频域分析出的特征中又没有语音信号随时间的变化关系。由于语音信号随时间变化是很缓慢的,因而在一段短时间内(如10ms~30ms之间,即所谓的一帧之内)可以认为其频谱是固定不变的,这种频谱又称为短时谱。短时谱只能反映语音信号的静态频率特性,不能反映语音信号的动态频率特性。因此,人们致力于研究语音的时频分析特性,把和时序相关的傅立叶分析的显示图形称为语谱图(Sonogram,或者Spectrogram)。 语谱图是一种三维频谱,它是表示语音频谱随时间变化的图形,其纵轴为频率,横轴为时间,任一给定频率成分在给定时刻的强弱用相应点的灰度或色调的浓淡来表示。语谱图中显示了大量的与语音的语句特性有关的信息,它综合了频谱图和时域波形的特点,明显地显示出语音频谱随时间的变化情况

文档评论(0)

kehan123 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档