PLP及MFCC在藏语连续语音识别系统中的比较.docVIP

PLP及MFCC在藏语连续语音识别系统中的比较.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
PLP及MFCC在藏语连续语音识别系统中的比较 【摘要】 本文论述了常用的语音特征参数,并分析了mel频谱倒谱系数(mfcc)和感知线性预测系数(plp)的计算方法,并在藏语拉萨话大词表连续语音识别系统中分别提取mfcc和plp参数,并对识别结果进行了比较. 【关键词】 mel倒谱 感知线性预测系数 mfcc plp 语音识别 藏语 自动语音识别研究起始于上世纪50年代,80年代最大突破是隐马尔科夫模型(hmm)的应用,语音识别研究重点从特定人、小词表、孤立词语音识别向非特定人、大词表、连续语音识别转移;90年代以来,语音识别在模型细化、参数提取和优化、系统自适应方面取得重大突破.进入本世纪,著名的研究机构和公司,如剑桥大学、ibm、cmu大学、微软、贝尔实验室等机构的大词表连续语音识别系统对特定说话人的识别率达到95%左右.面对中国未来市场,国外ibm、apple、motorola等公司投入到汉语语音识别系统的开发. 我国语音识别研究虽然起步较晚,但发展发展迅速,中国科学院自动化研究所、声学研究所及清华大学、北京交通大学等机构都开展了语音识别的研究,总体上,汉语连续语音识别的研究与国外先进技术相差不大。 实际环境对语音识别的声学噪声鲁棒性要求越来越高,因此,提取具有鲁棒性和较强区分能力的特征向量对语音识别系统具有重要的意义.目前常用的声学特征参数有基于线性预测分析(lpc)的倒谱lpcc、基于mel频率弯折的倒谱mfcc及基于听觉模型的感知线性预测(plp)分析等. 由于考虑到人耳的听觉特性,mel倒谱系数或感知线性预测系数已经成为目前主流的语音特征向量提取方法之一,加上它们的一阶、二阶差分以及对特征向量进行归一化处理以后,在大词汇量连续语音识别问题上取得不错的结果。为了使系统具有较好的鲁棒性,通常要对语音识别系统的前端进行预处理. 虽然语音信号是非平稳信号,但在一个小的时段内具有相对的稳定性,因此在对语音信号进行分析时,我们总是假定语音信号在一个时间帧(frame)内是平稳信号,这就是语音信号的短时分析假设。通常一帧大约为20ms左右。对一帧信号通过加hamming 窗、hanning 窗或矩形窗后再进行特征分析就可以得到相应的一组特征,然后通过把分析窗移动一个偏移(称为帧移,通常为一帧的1/2或1/3),然后进行下一帧的处理。 1.mfcc的计算 mel频率倒谱参数(mfcc),着眼于人耳的听觉特性。人耳所听到的声音的高低与声音的频率并不成线性正比关系,从人类听觉系统的研究成果来看,人耳分辨声音频率的过程犹如一种取对数的功能,而mel频率尺度则更符合人耳的听觉特性。 类似于临界频带的划分,可以将语音频率划分成一系列三角形的滤波器序列,即mel滤波器组。mel频率和频率的关系如下: mel(f)=2595lg(1+f/700) mel频率带宽随频率的增长而变化,在1000hz以下,大致呈线性分布,带宽为100hz左右,在1000hz以上呈对数增长。将频谱通过24个三角滤波器,其中中心频率在1000hz以上和以下的各12个。滤波器的中心频率间隔特点是在1000hz以下为线性分布,1000hz以上为等比数列分布。 图1 mel三角滤波器 mfcc的具体计算过程如下: 1) 由原始信号计算其dft,得到离散谱{s n n n} t ( ) = 1,2,..., ; 2) 三角滤波器的输出则为此频率带宽内所有信号幅度谱加权和。 l = 1,2,....,24 3) 对所有滤波器输出作对数运算 ln(y(l))l= 1,2,....,24 4) 作离散余弦变换(dct)得到mel频率倒谱参数(mfcc)。 i = 1,2,...,p,p为mfcc参数的阶数,取p=12. 2.plp的计算 感知线性预测(plp)技术涉及到听力、心理、物理学的三个概念:(1)临界波段频谱分辨率;(2)等响度曲线;(3)强度-响度功率定律。使用一个自回归全极点模型去逼近听觉频谱。5阶的全极点模型能有效地抑制听觉频谱中与话者有关的细节信息。与传统的线性预测(lp)分析相比,在强调听觉这方面,plp分析更为合理。 plp分析流程: (1)使用fft用对原始信号从时域变换到频域,得到功率谱 ; (2)关键波段频谱分析(critical-band spectral resolution):以不同于mel频谱分析的新的临界波段曲线进行分段离散卷积,产生临界波段功率谱的样点. (3)等响度预加重(equal-loudness pre-emphasis):样值化的通过模拟的等响度曲线进行预加重 (4) 利用强度-响度幂律(intensity-loudness power law)进行立方根幅度压缩 (5) 自回归建模(auto-regressive modeling)

文档评论(0)

14576 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档