- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第三章语音信号的特征分析.ppt
第三章 语音信号的特征分析 语音信号的数字化 语音信号的短时分析与短时处理的概念 语音信号的时域特征分析 语音信号的频率特征分析 语音信号的同态解卷与倒谱分析 端点检测、语音分割与基频估计 3.1 语音信号的数字化 模拟语音信号在时间与幅度上的二重连续性 时间上离散化:每秒钟需要采集多少个声音样本, 也就是采样频率(fs)是多少, 幅度上离散化:每个声音样本的位数(bit per sample,bps) 应该是多少,也就是量化精度。 奈奎斯特采样定理:fs 2 fmax 窄带语音信号: fs =8000Hz 电话语音(固网电话通信频带为300-3400Hz) 可以基本保持语义,不影响人对语音的感知 质量不是很好,有时候会有变音 宽带语音信号:fs =16000Hz 一般对语音质量要求较高的场合 再提高采样频率也不会对语音质量有太多贡献 量化所用比特越大,声音质量越好 声音质量也跟量化算法有关,比如同样用8bit量化,非均匀量化(μ-律或A-律)就比均匀量化好很多 固网电话语音量化就是用的非均匀量化 3.2 语音信号的短时分析 语音分析是语音信号处理的前提和基础; 分析的目的是提取需要的信息,获取特征表示参数; 短时分析 语音是一个时变信号 语音的短时平稳特性,在10~30ms时间段内相对平稳 预滤波 预滤波的目的 防止混叠干扰 抑制50Hz的电源干扰 预滤波实际上是一个带通滤波器,其上下截止频率分别为fH和fL 。 对于电话语音编码器而言,要求fH=3400Hz, fL=60~100Hz, fs=8KHz. 对于语音识别系统而言,用于电话用户时要求技术指标与语音编码器相同,如果对于更高的要求场合,则fH=4500Hz或8000Hz, fL=60Hz, fs=10KHz或20KHz 帧和加窗的概念 短时分析将语音流分为一段一段来处理,每一段称为一“帧”; 帧长:10~30;帧移:0~1倍帧长,帧与帧之间的平滑过渡; 语音识别中常用的帧长为20~30ms,帧移为10ms 为了减小语音帧的截断效应,需要加窗处理; 几种不同的窗函数波形与频谱的比较 不同的窗选择,将决定短时语音分析结果的好坏 首先是窗的长度,无论什么形状的窗,长度N将起决定性的作用。 N选得太大,不能保证每一帧的语音的平稳特性 N太小,不能保证信号的统计特性,容易产生统计噪声 对于频域分析而言,窗长N还直接决定了信号频谱的分辨率 对于语音信号,通常帧长应选择为一个语音帧包含有至少2个基音周期为好。人的语音的基音周期值是变化的,从女性小孩的2ms到老年男子的14ms(即基音频率为500Hz至70Hz),所以N的选择是比较困难的。通常折衷的选择N为20~30ms。若采用频率为10KHz,则相当于每帧的长度(即窗口序列的长度)约为200~300点为宜。若采样频率为8KHz,相当于160~240点 其次是窗口的形状,不同的窗,其频率特性是不一样的,这在短时频域分析时尤为重要。 窗函数频谱的主瓣与旁瓣 主瓣: 主瓣宽度控制频谱分析的频率分辨率,主瓣越窄,频率分辨率越高 矩形窗的主瓣宽度 = fs/N hamming窗的主瓣宽度 约为 2fs/N 旁瓣: 旁瓣的高度决定了对临近频率成分的干扰抑制能力,高度越低,抑制干扰能力越强 矩形窗: 主瓣高度 - 第一个旁瓣高度 ≈ 13dB hamming窗: 主瓣高度 - 第一个旁瓣高度 40dB 旁瓣高度跟窗长N 无关 窗函数及其比较 三种窗函数都有低通特性,通过分析三种窗的频率响应幅度特性可以发现: 矩形窗的主瓣宽度最小分辨率最高,旁瓣高度最高,会导致泄漏现象,哈明窗的主瓣最宽,分辨率低(可以通过适当提高窗长解决),旁瓣高度最低,可以有效的克服泄漏现象,具有更平滑的低通特性,应用更广泛。 3.3 语音信号的时域特征分析 短时能量 短时平均幅度 短时过零率 短时自相关函数 短时平均幅度差函数 语音信号的短时能量(语音信号强度的度量参数) 语音信号x(n)的短时能量(假定加长度为N的窗)可以表示为 若加的是矩形窗 则 短时平均能量的主要用途 可以从语音中区别出浊音来,因为浊音时短时平均能量的值要比清音时短时平均能量的值大很多; 可以用来区别声母和韵母的分界、无声和有声的分界等 语音信号的短时平均幅度 语音信号的短时过零率 过零就是指信号通过零值。过零率(zero-crossing rate)就是每秒内信号值通过零值的次数。 对于离散时间序列,过零则是指序列取样值改变符号,过零率则是每秒内信号样本改变符号的次数。对于语音信号,则是指在一帧语音中语音信号波形穿过横轴(零电平)的次数。可以用相邻两个取样改变符号的次数来计算。 短时过零率 波形穿过横轴(
文档评论(0)