网站大量收购独家精品文档,联系QQ:2885784924

第三讲语音信号处理第3.1~3.4章总汇.ppt

  1. 1、本文档共75页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
3.1概述 3.2语音信号的数字化和预处理 3.3语音信号的时域分析 3.4语音信号的频域分析 3.5语音信号的倒谱分析 3.6语音信号的线性预测分析 3.7 语音信号的小波分析 3.8 基音周期估计 3.9共振峰估计 ;3.1概述 3.2语音信号的数字化和预处理 3.3语音信号的时域分析 3.4语音信号的频域分析 3.5语音信号的倒谱分析;3.1 概述;3.1 概述;3.2 语音信号的数字化和预处理; 预滤波、采样、A/D变换 预滤波的目的有两个: 抑制输入信号各频域分量中频率超出fs/2的所有分量,以防止混叠干扰。 抑制50Hz的电源工频干扰。 这样,预滤波器必须是一个带通滤波器,设其上、下截止频率分别是fH和fL: 绝大多数语音编译码器: fH=3400Hz,fL=60-100Hz,fS=8kHz; 预滤波、采样、A/D变换 量化不可避免地会产生误差。量化后的信号值与原信号值之间的差值称为量化误差,又称为量化噪声。 若信号波形的变化足够大,或量化间隔Δ足够小时,可以证明量化噪声符合具有下列特征的统计模型: ①它是平稳的白噪声过程 ②量化噪声与输入信号不相关 ③量化噪声在量化间隔内均匀分布,即具有等概率密度分布; 预滤波、采样、A/D变换 若用σx2表示输入语音信号的方差,2Xmax表示信号的峰值,B表示量化字长, σe2表示噪声序列的方差,可以证明量化信噪比SNR(信号与量化噪声的功率比)为: 假设语音信号的幅度符合Laplacian分布,此时信号幅度超过4σx的概率很小,只有0.35%,因而可取Xmax=4σx,则 上式表明量化器中的每bit字长对SNR的贡献为6dB。;预加重(Preemphasis)处理 语音信号的平均功率谱受声门激励和口鼻辐射影响,800Hz以上按6dB/倍频程跌落 目的是提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱,以便于频谱分析或声道参数分析; 预处理:分帧 进行过预加重数字滤波处理后,接下来就要进行加窗分帧处理。一般每秒的帧数约为33-100帧,视实际情况而定。 分帧虽然可以采用连续分段的方法,但一般要采用如图3-2所示的交叠分段的方法,这是为了使帧与帧之间平滑过渡,保持其连续性。 帧移:前一帧和后一帧的非交叠部分。帧移与帧长的比值一般取为1/3-1/2; 预处理:分帧示意图 ; 预处理:加窗 分帧是用可移动的有限长度窗口进行加权的方法来实现的,这就是用一定的窗函数ω(n)来乘s(n), 加窗语音信号sω(n)=s(n)* ω(n)。 在语音信号数字处理中常用的窗函数是矩形窗和汉明窗等,它们的表达式如下(其中N为帧长): 矩形窗: 汉明窗:; ; 预处理:窗口的形状 不同的短时分析方法(时域、频域、倒频域分析) 对窗函数的要求不尽一样 选择窗的标准 在时域要减小时间窗两端的坡度,使窗口边缘两端不引起急剧变化而平滑过渡到零,这样可以使截取出的语音波形缓慢降为零,减小语音帧的截断效应; 在频域要有较宽的3dB带宽以及较小的边带最大值;矩形窗与汉明窗的比较;窗频谱响应; 预处理:窗口的长度 采样周期Ts=1/fs,窗口长度N和频率分辨率Δf之间存在下列关系: Δf=1/NTs 可见,采样周期一定时,Δf随窗口宽度N的增加而减小,即频率分辨率相应得到提高,但同时时间分辨率降低;如果窗口取短,频率分辨率下降,而时间分辨率提高,因而二者是矛盾的。应该根据不同的需要选择合适的窗口长度。; 预处理:窗长 有时窗口长度的选择,更重要的是要考虑语音信号的基音周期。通常认为在一个语音帧内应包含1~7个基音周期。然而不同人的基音周期变化很大,从女性和儿童的2ms到老年男子的14ms(即基音频率的变化范围为500~70Hz),所以N的选择比较困难。通常在10kHz取样频率下,N折中选择为100~200点为宜(即10~20ms持续时间)。 这样,经过上面介绍的处理过程,语音信号就已经被分割成一帧一帧的加过窗函数的短时信号,然后再把每一个短时语音帧看成平稳的随机信号,利用数字信号处理技术来提取语音特征参数。在进行处理时,按帧从数据区中取出数据,处理完成后再取下一帧,等等,最后得到由每一帧参数组成的语音特征参数的时间序列。;3.3 语音信号的时域分析; 短时能量及短时平均幅度分析 如图3-2所示,设语音波形时域信号为x(t)、加窗分帧处理后得到的第n帧语音信号为xn(m),则xn(m)满足下式: xn(m)=ω(m)x(n+m) 其中,n=0,1T,2T,…,并且N为帧长,T为帧移长度。 设第n帧语音信号xn(m)的短时能量用En表示,则其计算公式如下:; 短时能量及短时平均幅度分析 En是一个度量语音信号幅度值变化的

文档评论(0)

1112111 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档