网站大量收购独家精品文档,联系QQ:2885784924

《语音信号处理》第3章语音信号分析1.pptx

《语音信号处理》第3章语音信号分析1.pptx

  1. 1、本文档共155页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

3.1概述

3.2语音信号的数字化和预处理

3.3语音信号的时域分析

3.4语音信号的频域分析

3.5语音信号的倒谱分析

3.6语音信号的线性预测分析

3.7语音信号的小波分析

3.8基音周期估计

3.9共振峰估计

;3.1概述

3.2语音信号的数字化和预处理

3.3语音信号的时域分析

3.4语音信号的频域分析

3.5语音信号的倒谱分析;3.1概述;3.1概述;3.2语音信号的数字化和预处理;预滤波、采样、A/D变换

预滤波的目的有两个:

抑制输入信号各频域分量中频率超出fs/2的所有分量,以防止混叠干扰。

抑制50Hz的电源工频干扰。

这样,预滤波器必须是一个带通滤波器,设其上、下截止频率分别是fH和fL:

绝大多数语音编译码器:

fH=3400Hz,fL=60-100Hz,fS=8kHz;预滤波、采样、A/D变换

量化不可避免地会产生误差。量化后的信号值与原信号值之间的差值称为量化误差,又称为量化噪声。

若信号波形的变化足够大,或量化间隔Δ足够小时,可以证明量化噪声符合具有下列特征的统计模型:

①它是平稳的白噪声过程

②量化噪声与输入信号不相关

③量化噪声在量化间隔内均匀分布,即具有等概率密度分布;预滤波、采样、A/D变换

若用σx2表示输入语音信号的方差,2Xmax表示信号的峰值,B表示量化字长,σe2表示噪声序列的方差,可以证明量化信噪比SNR(信号与量化噪声的功率比)为:

假设语音信号的幅度符合Laplacian分布,此时信号幅度超过4σx的概率很小,只有0.35%,因而可取Xmax=4σx,则

上式表明量化器中的每bit字长对SNR的贡献为6dB。;预加重(Preemphasis)处理

语音信号的平均功率谱受声门激励和口鼻辐射影响,800Hz以上按6dB/倍频程跌落

目的是提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱,以便于频谱分析或声道参数分析;预处理:分帧

进行过预加重数字滤波处理后,接下来就要进行加窗分帧处理。一般每秒的帧数约为33-100帧,视实际情况而定。

分帧虽然可以采用连续分段的方法,但一般要采用如图3-2所示的交叠分段的方法,这是为了使帧与帧之间平滑过渡,保持其连续性。

帧移:前一帧和后一帧的非交叠部分。帧??与帧长的比值一般取为1/3-1/2;预处理:分帧示意图

;预处理:加窗

分帧是用可移动的有限长度窗口进行加权的方法来实现的,这就是用一定的窗函数ω(n)来乘s(n),

加窗语音信号sω(n)=s(n)*ω(n)。

在语音信号数字处理中常用的窗函数是矩形窗和汉明窗等,它们的表达式如下(其中N为帧长):

矩形窗:

汉明窗:;;预处理:窗口的形状

不同的短时分析方法(时域、频域、倒频域分析)对窗函数的要求不尽一样

选择窗的标准

在时域要减小时间窗两端的坡度,使窗口边缘两端不引起急剧变化而平滑过渡到零,这样可以使截取出的语音波形缓慢降为零,减小语音帧的截断效应;

在频域要有较宽的3dB带宽以及较小的边带最大值;矩形窗与汉明窗的比较;窗频谱响应;预处理:窗口的长度

采样周期Ts=1/fs,窗口长度N和频率分辨率Δf之间存在下列关系:

Δf=1/NTs

可见,采样周期一定时,Δf随窗口宽度N的增加而减小,即频率分辨率相应得到提高,但同时时间分辨率降低;如果窗口取短,频率分辨率下降,而时间分辨率提高,因而二者是矛盾的。应该根据不同的需要选择合适的窗口长度。;预处理:窗长

有时窗口长度的选择,更重要的是要考虑语音信号的基音周期。通常认为在一个语音帧内应包含1~7个基音周期。然而不同人的基音周期变化很大,从女性和儿童的2ms到老年男子的14ms(即基音频率的变化范围为500~70Hz),所以N的选择比较困难。通常在10kHz取样频率下,N折中选择为100~200点为宜(即10~20ms持续时间)。

这样,经过上面介绍的处理过程,语音信号就已经被分割成一帧一帧的加过窗函数的短时信号,然后再把每一个短时语音帧看成平稳的随机信号,利用数字信号处理技术来提取语音特征参数。在进行处理时,按帧从数据区中取出数据,处理完成后再取下一帧,等等,最后得到由每一帧参数组成的语音特征参数的时间序列。;3.3语音信号的时域分析;短时能量及短时平均幅度分析

如图3-2所示,设语音波形时域信号为x(t)、加窗分帧处理后得到的第n帧语音信号为xn(m),则xn(m)满足下式:

xn(m)=ω(m)x(n+m)

其中,n=0,1T,2T,…,并且N为帧长,T为帧移长度。

设第n帧语音信号xn(m)的短时能量用En表示,则其计算公式如下:;短时能量及短时平均幅度分析

En是一个度量语音信号幅度值变化

文档评论(0)

autohyy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档