- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第二章 汉语数码语音的特征提取
及端点检测方法分析
§2.1 语音特征参数提取
语音特征参数: LPCC 和 MFCC
在语音识别系统中 , 模拟的语音信号在完成 A/D 转换后成为数字信号 , 但时 域上的语音信号很难直接用于识别 , 因此我们需要从语音信号中提取语音的特 征,一方面可以获得语音的本质特征 , 另一方面也起到数据压缩的作用。
目前通用的特征提取方法是基于语音帧的, 即将语音信号分为有重叠的若干 帧,对每一帧提取语音特征。例如采用的语音库采样率为 11kHz ,因此我们采 用的帧长为 220 个采样点(即 20 ms ),帧步长(即每一帧语音与上一帧语音不重 迭的长度)为 110 个采样点(即 10 ms )。
现有语音识别系统采用的最主要的两种语音特征包括:
线性预测倒 谱系数(Linear Prediction Cepstrum Coefficient , LPCC) 。该特征是基于语音信号为自回归信号的假设, 利用线性预测分析获得倒 谱系数。 LPCC 参数的优点是计算量小,对元音有较好的描述能力,其缺点在于 对辅音的描述能力较差,抗噪声性能较差。
Mel 频标倒谱系数 (Mel Frequency Cepstrum Coefficient , MFCC) 。 该特征考虑了人耳的听觉特性,将频谱转化为基于 Mel 频标的非线性频谱,然 后转换到倒谱域上。由于充分模拟了人的听觉特性,而且没有任何前提假设, MFCC 参数具有识别性能和抗噪能力。本文采用 MFCC 参数为语音特征参数。
MFCC 参数的优点
与 LPCC 参数相比, MFCC 参数具有以下优点:
.语音的信息大多集中在低频部分,而咼频部分易受环境噪声干扰。MFCC 参数将线性频标转化为 Mel频标,强调语音的低频信息,从而突出了有利于识 别的信息,屏蔽了噪声的干扰。LPCC参数是基于线性频标的,所以没有这一特 点。
. MFCC参数无任何前提假设,在各种情况下均可使用。而 LPCC参数
假定所处理的信号为AR信号,对于动态特性较强的辅音,这个假设并不严格成 立,而汉语数码语音识别需要对辅音有较强的分辨能力,如“ 6”和“9”,“ 1 ”
和“6”等,所以MFCC参数在汉语数码语音识别中优于 LPCC参数。另外, 当噪声存在时,AR信号会变为ARMA信号:
H()1
H()
1
A()
no
(2.1)A( )n。
(2.1)
A()
其中H()为受噪声污染的信号功率谱,1 / A()为AR信号功率谱,no为噪声 功率。这会给LPC分析的结果带来较大误差。因此,MFCC参数的抗噪声能力 也优于LPCC参数。
. MFCC参数提取过程中需要FFT变换,我们可以由此顺便获得语音信 号频域上的全部信息。而以后将要介绍的端点检测、语音分段、 鼻音特征提取等 算法都要利用到语音的频域信息,因此 MFCC参数的提取可以节省掉以上算法
FFT的计算量
MFCC参数提取的具体步骤
1.假定已有一帧采样语音{X} 1,2,...n,N为帧长。为方便后面所需的FFT, 我们取N = 256。对{x} 1,2,...n加Hamming窗后作N点FFT,将时域信号转化 为频域分量{Xi}i 1,2,...,N。
.将线性频标转化为 Mel频标。转化方法是将频域信号通过 24个三角滤 波器,其中中心频率在1000 Hz以上和以下的各12个。滤波器的中心频率间隔 特点是在1000 Hz以下为线性分布,1000 Hz以上为等比数列分布。三角滤波
器的输出则为:
Yi k Fi 1 Xk 11 Fi 1 k Xk , i = 1,2,....,24 (2.2)
k Fi 1 Fj Fi i k Fi 1 Fi 1 Fi
其中Xk为频谱上第k个频谱点的能量,Yi为第i个滤波器的输出,Fi为第i个滤 波器的中心频率。
.用离散余弦变换(Discrete Cosine Transformation, DCT )将滤波器
输出变换到倒谱域:
TOC \o 1-5 \h \z 24 1
Ck log(Yj)cos[k(j —)—] k = 1,2,...,P (2.3)
j 1 2 24
其中P为MFCC参数的阶数,我们取 P= 12。{Ck}k 1,2,...,12即为所求的MFCC 参数。
求出MFCC参数后,我们按式(2.3)对其进行加权,并按式(2.4)计算差分
MFCC参数。
wm 1 si n(
m)
1 m P
(2.4)
2
P
2
Cl (m) kcl
k 2
k (m) 0.56
1 m P
(2.5)
其中下标I与l-k表示第I与l-k帧。故最后提取的特征参数为24维的特征矢量, 包括12维MFCC参数和12维差分MFCC参数。
§ 2.2共振峰轨迹提取
共
您可能关注的文档
最近下载
- 河南省2019年对口升学网络选择和判断题.docx VIP
- 兴陇中学七年级语文期中复习《骆驼祥子》单选题.docx VIP
- 2025至2030年中国电站铸锻件市场分析及竞争策略研究报告.docx
- 2025年湖南选调真题及答案.docx VIP
- 防范电信网络诈骗宣传课件 PPT.pptx VIP
- 第4课 直面挫折 积极应对中职思想政治《心理健康与职业生涯》(高教版基础模块).pdf VIP
- 广西书院文化研讨.pdf VIP
- 高考古代文化常识判断题(一).docx VIP
- 前十题单选,后十题多选,每题5分,满分100分。.docx VIP
- 12K101-1~4 通风机安装(2012年合订本).pdf VIP
文档评论(0)