第三讲语音信号处理第3.1~3.4章总汇.ppt

下载文档 降价啦

65
0
约7.61千字
约 75页
2017-05-15 发布于湖北
举报
版权申诉
保障服务

第三讲语音信号处理第3.1~3.4章总汇.ppt

1、本文档共75页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

3.1概述 3.2语音信号的数字化和预处理 3.3语音信号的时域分析 3.4语音信号的频域分析 3.5语音信号的倒谱分析 3.6语音信号的线性预测分析 3.7 语音信号的小波分析 3.8 基音周期估计 3.9共振峰估计 ;3.1概述 3.2语音信号的数字化和预处理 3.3语音信号的时域分析 3.4语音信号的频域分析 3.5语音信号的倒谱分析;3.1 概述;3.1 概述;3.2 语音信号的数字化和预处理; 预滤波、采样、A/D变换预滤波的目的有两个：抑制输入信号各频域分量中频率超出fs/2的所有分量，以防止混叠干扰。抑制50Hz的电源工频干扰。这样，预滤波器必须是一个带通滤波器，设其上、下截止频率分别是fH和fL：绝大多数语音编译码器： fH=3400Hz，fL=60-100Hz，fS=8kHz; 预滤波、采样、A/D变换量化不可避免地会产生误差。量化后的信号值与原信号值之间的差值称为量化误差，又称为量化噪声。若信号波形的变化足够大，或量化间隔Δ足够小时，可以证明量化噪声符合具有下列特征的统计模型： ①它是平稳的白噪声过程 ②量化噪声与输入信号不相关 ③量化噪声在量化间隔内均匀分布，即具有等概率密度分布; 预滤波、采样、A/D变换若用σx2表示输入语音信号的方差,2Xmax表示信号的峰值,B表示量化字长, σe2表示噪声序列的方差,可以证明量化信噪比SNR（信号与量化噪声的功率比）为：假设语音信号的幅度符合Laplacian分布,此时信号幅度超过4σx的概率很小，只有0.35%，因而可取Xmax=4σx，则上式表明量化器中的每bit字长对SNR的贡献为6dB。;预加重（Preemphasis）处理语音信号的平均功率谱受声门激励和口鼻辐射影响，800Hz以上按6dB/倍频程跌落目的是提升高频部分，使信号的频谱变得平坦，保持在低频到高频的整个频带中，能用同样的信噪比求频谱，以便于频谱分析或声道参数分析; 预处理：分帧进行过预加重数字滤波处理后，接下来就要进行加窗分帧处理。一般每秒的帧数约为33-100帧，视实际情况而定。分帧虽然可以采用连续分段的方法，但一般要采用如图3-2所示的交叠分段的方法，这是为了使帧与帧之间平滑过渡，保持其连续性。帧移：前一帧和后一帧的非交叠部分。帧移与帧长的比值一般取为1/3-1/2; 预处理:分帧示意图 ; 预处理：加窗分帧是用可移动的有限长度窗口进行加权的方法来实现的，这就是用一定的窗函数ω(n)来乘s(n)，加窗语音信号sω(n)=s(n)* ω(n)。在语音信号数字处理中常用的窗函数是矩形窗和汉明窗等，它们的表达式如下（其中N为帧长）：矩形窗：汉明窗：; ; 预处理:窗口的形状不同的短时分析方法(时域、频域、倒频域分析) 对窗函数的要求不尽一样选择窗的标准在时域要减小时间窗两端的坡度，使窗口边缘两端不引起急剧变化而平滑过渡到零，这样可以使截取出的语音波形缓慢降为零，减小语音帧的截断效应；在频域要有较宽的3dB带宽以及较小的边带最大值;矩形窗与汉明窗的比较;窗频谱响应; 预处理：窗口的长度采样周期Ts=1/fs，窗口长度N和频率分辨率Δf之间存在下列关系： Δf=1/NTs 可见，采样周期一定时，Δf随窗口宽度N的增加而减小，即频率分辨率相应得到提高，但同时时间分辨率降低；如果窗口取短，频率分辨率下降，而时间分辨率提高，因而二者是矛盾的。应该根据不同的需要选择合适的窗口长度。; 预处理：窗长有时窗口长度的选择，更重要的是要考虑语音信号的基音周期。通常认为在一个语音帧内应包含1～7个基音周期。然而不同人的基音周期变化很大，从女性和儿童的2ms到老年男子的14ms(即基音频率的变化范围为500～70Hz)，所以N的选择比较困难。通常在10kHz取样频率下，N折中选择为100～200点为宜(即10～20ms持续时间)。这样，经过上面介绍的处理过程，语音信号就已经被分割成一帧一帧的加过窗函数的短时信号，然后再把每一个短时语音帧看成平稳的随机信号，利用数字信号处理技术来提取语音特征参数。在进行处理时，按帧从数据区中取出数据，处理完成后再取下一帧，等等，最后得到由每一帧参数组成的语音特征参数的时间序列。;3.3 语音信号的时域分析; 短时能量及短时平均幅度分析如图3-2所示，设语音波形时域信号为x(t)、加窗分帧处理后得到的第n帧语音信号为xn(m),则xn(m)满足下式： xn(m)=ω(m)x(n+m) 其中，n=0,1T,2T,…,并且N为帧长，T为帧移长度。设第n帧语音信号xn(m)的短时能量用En表示，则其计算公式如下：; 短时能量及短时平均幅度分析 En是一个度量语音信号幅度值变化的