语音信号的短时时域分析.pptVIP

下载本文档

0
0
约2.85千字
约 10页
2025-03-20 发布于上海
举报
版权申诉

语音信号的短时时域分析.ppt

1、本文档共10页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

短时平均幅度函数随矩形窗窗长N变化的情况定义在离散时间语音信号情况下，如果相邻的采样具有不同的代数符号就称为发生了过零。单位时间内过零的次数就称为过零率。短时平均过零率的定义为考虑到w(n-m)的非零值范围为n-m≥0，即m≤n，以及n-m≤N-1,故m≥n-N+1，因此短时平均过零率可以改写为：（定义式）实现短时平均过零率女声“我到北京去”的短时平均过零次数的变化曲线:清音过零率高，浊音过零率低。1局限性：浊音和清音重叠区域只根据短时平均过零率不可能明确地判别清、浊音。2应用端点检测目的：从包含语音的一段信号中确定出语音的起点及结束点。有效的端点检测不仅能使处理时间减到最少，而且能抑制无声段的噪声干扰，提高语音处理的质量。0102端点检测3.6短时自相关分析3.6.1短时自相关函数时域离散确定信号的自相关函数定义为：周期为P的周期信号满足：时域离散随机信号的自相关函数定义为：自相关函数具有下述性质：R(k)=R(-k)=0处为最大值，即对于所有k来说，|R(k)|≤R(0)定信号，R(0)对应于能量对于随机信号，R(0)对应于平均功率3.6.2语音信号的短时自相关函数采用短时分析方法，定义语音信号短时自相关函数为01因为02所以03定义(3-18)那么短时自相关函数可以写成：上式表明，序列经过一个冲激响应为的数字滤波器滤波即得到短时自相关函数数字语音处理及MATLAB仿真张雪英编著*数字语音处理及MATLAB仿真张雪英编著*第三章语音信号的短时时域分析概述01语音信号的预处理02短时平均能量03短时平均幅度函数04短时平均过零率05短时自相关分析06基于能量和过零率的语音端点检测073.1概述语音信号是一种非平稳的时变信号，它携带着各种信息。在语音编码、语音合成、语音识别和语音增强等语音处理中都需要提取语音中包含的各种信息。语音处理的目的：对语音信号进行分析，提取特征参数，用于后续处理；加工语音信号。总之，语音信号分析的目的就在于方便有效的提取并表示语音信号所携带的信息。321根据所分析的参数类型，语音信号分析可以分成时域分析和变换域（频域、倒谱域）分析。其中时域分析方法是最简单、最直观的方法，它直接对语音信号的时域波形进行分析，提取的特征参数主要有语音的短时能量和平均幅度、短时平均过零率、短时自相关函数和短时平均幅度差函数等。3.2语音信号的预处理正式的是指大公司或语音研究机构发布的被大家认可的语音数据库，非正式的则是研究者个人用录音软件或硬件电路加麦克风随时随地录制的一些发音或语句。02在对语音信号进行数字处理之前，首先要将模拟语音信号s(t)离散化为s(n).实际中获得数字语音的途径一般有两种，正式的和非正式的。01图3-4语音信号处理系统框图语音信号的频率范围通常是300~3400Hz，一般情况下取采样率为8kHz即可。采样后的信号在进行量化的过程中不可避免的产生量化误差，一般可用量化信噪比来表示量化误差的大小：3.2.1语音信号的预加重处理01预加重目的：为了对语音的高频部分进行加重，去除口唇辐射的影响，增加语音的高频分辨率。可通过一阶FIR高通数字滤波器来实现：02设n时刻的语音采样值为x(n)，经过预加重处理后的结果为03有了语音数据文件后，对语音的预处理包括：预加重、加窗分帧等。预加重前和预加重后的一段语音信号时域波形由于发音器官的惯性运动，可以认为在一小段时间里（一般为10ms~30ms）语音信号近似不变，即语音信号具有短时平稳性。这样，可以把语音信号分为一些短段（称为分析帧）来进行处理。语音信号的分帧实现方法：采用可移动的有限长度窗口进行加权的方法来实现的。一般每秒的帧数约为33～100帧。分帧一般采用交叠分段的方法，这是为了使帧与帧之间平滑过渡，保持其连续性。前一帧和后一帧的交叠部分称为帧移，帧移与帧长的比值一般取为0~1/2。图3.3给出了帧移与帧长示意图。01加窗常用的两种方法：矩形窗，窗函数如下：02汉明(Hamming)窗，窗函数如下矩形窗及其频谱如下汉明窗及其频谱如下思考：两种窗效果有何异同？加窗方法示意图：一般选取100～200(应含1~7个基音周期)。原因如下：01当窗较宽时，平滑作用大，能量变化不大，故反映不出能量的变化。02当窗较窄时，没有平滑作用，反映