《语音信号处理》第3章语音信号分析1.pptx

下载文档

2
0
约1.47万字
约 155页
2025-02-18 发布于浙江
举报
版权申诉
保障服务

《语音信号处理》第3章语音信号分析1.pptx

1、本文档共155页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

3.1概述

3.2语音信号的数字化和预处理

3.3语音信号的时域分析

3.4语音信号的频域分析

3.5语音信号的倒谱分析

3.6语音信号的线性预测分析

3.7语音信号的小波分析

3.8基音周期估计

3.9共振峰估计

;3.1概述

3.2语音信号的数字化和预处理

3.3语音信号的时域分析

3.4语音信号的频域分析

3.5语音信号的倒谱分析;3.1概述;3.1概述;3.2语音信号的数字化和预处理;预滤波、采样、A/D变换

预滤波的目的有两个：

抑制输入信号各频域分量中频率超出fs/2的所有分量，以防止混叠干扰。

抑制50Hz的电源工频干扰。

这样，预滤波器必须是一个带通滤波器，设其上、下截止频率分别是fH和fL：

绝大多数语音编译码器：

fH=3400Hz，fL=60-100Hz，fS=8kHz;预滤波、采样、A/D变换

量化不可避免地会产生误差。量化后的信号值与原信号值之间的差值称为量化误差，又称为量化噪声。

若信号波形的变化足够大，或量化间隔Δ足够小时，可以证明量化噪声符合具有下列特征的统计模型：

①它是平稳的白噪声过程

②量化噪声与输入信号不相关

③量化噪声在量化间隔内均匀分布，即具有等概率密度分布;预滤波、采样、A/D变换

若用σx2表示输入语音信号的方差,2Xmax表示信号的峰值,B表示量化字长,σe2表示噪声序列的方差,可以证明量化信噪比SNR（信号与量化噪声的功率比）为：

假设语音信号的幅度符合Laplacian分布,此时信号幅度超过4σx的概率很小，只有0.35%，因而可取Xmax=4σx，则

上式表明量化器中的每bit字长对SNR的贡献为6dB。;预加重（Preemphasis）处理

语音信号的平均功率谱受声门激励和口鼻辐射影响，800Hz以上按6dB/倍频程跌落

目的是提升高频部分，使信号的频谱变得平坦，保持在低频到高频的整个频带中，能用同样的信噪比求频谱，以便于频谱分析或声道参数分析;预处理：分帧

进行过预加重数字滤波处理后，接下来就要进行加窗分帧处理。一般每秒的帧数约为33-100帧，视实际情况而定。

分帧虽然可以采用连续分段的方法，但一般要采用如图3-2所示的交叠分段的方法，这是为了使帧与帧之间平滑过渡，保持其连续性。

帧移：前一帧和后一帧的非交叠部分。帧??与帧长的比值一般取为1/3-1/2;预处理:分帧示意图

;预处理：加窗

分帧是用可移动的有限长度窗口进行加权的方法来实现的，这就是用一定的窗函数ω(n)来乘s(n)，

加窗语音信号sω(n)=s(n)*ω(n)。

在语音信号数字处理中常用的窗函数是矩形窗和汉明窗等，它们的表达式如下（其中N为帧长）：

矩形窗：

汉明窗：;;预处理:窗口的形状

不同的短时分析方法(时域、频域、倒频域分析)对窗函数的要求不尽一样

选择窗的标准

在时域要减小时间窗两端的坡度，使窗口边缘两端不引起急剧变化而平滑过渡到零，这样可以使截取出的语音波形缓慢降为零，减小语音帧的截断效应；

在频域要有较宽的3dB带宽以及较小的边带最大值;矩形窗与汉明窗的比较;窗频谱响应;预处理：窗口的长度

采样周期Ts=1/fs，窗口长度N和频率分辨率Δf之间存在下列关系：

Δf=1/NTs

可见，采样周期一定时，Δf随窗口宽度N的增加而减小，即频率分辨率相应得到提高，但同时时间分辨率降低；如果窗口取短，频率分辨率下降，而时间分辨率提高，因而二者是矛盾的。应该根据不同的需要选择合适的窗口长度。;预处理：窗长

有时窗口长度的选择，更重要的是要考虑语音信号的基音周期。通常认为在一个语音帧内应包含1～7个基音周期。然而不同人的基音周期变化很大，从女性和儿童的2ms到老年男子的14ms(即基音频率的变化范围为500～70Hz)，所以N的选择比较困难。通常在10kHz取样频率下，N折中选择为100～200点为宜(即10～20ms持续时间)。

这样，经过上面介绍的处理过程，语音信号就已经被分割成一帧一帧的加过窗函数的短时信号，然后再把每一个短时语音帧看成平稳的随机信号，利用数字信号处理技术来提取语音特征参数。在进行处理时，按帧从数据区中取出数据，处理完成后再取下一帧，等等，最后得到由每一帧参数组成的语音特征参数的时间序列。;3.3语音信号的时域分析;短时能量及短时平均幅度分析

如图3-2所示，设语音波形时域信号为x(t)、加窗分帧处理后得到的第n帧语音信号为xn(m),则xn(m)满足下式：

xn(m)=ω(m)x(n+m)

其中，n=0,1T,2T,…,并且N为帧长，T为帧移长度。

设第n帧语音信号xn(m)的短时能量用En表示，则其计算公式如下：;短时能量及短时平均幅度分析

En是一个度量语音信号幅度值变化

您可能关注的文档

文档评论（0）

autohyy + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

《语音信号处理》第3章语音信号分析1.pptx