一种具有人耳听觉感知特性的鲁棒语言辨识参数提取算法.docxVIP

一种具有人耳听觉感知特性的鲁棒语言辨识参数提取算法.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种具有人耳听觉感知特性的鲁棒语言辨识参数提取算法 1 基于双程序码的gamachirp感知特征参数提取 随着全球化趋势的加剧,国际间交流日益紧密,人们迫切需要打破语言限制。这一需求反映在自动语言识别(自动语言识别)中,即自动识别语音中的语言类型。语言识别在搜索、多语信息服务、国家安全和军事领域发挥着重要作用。 目前,语言辨识普遍使用的特征参数有Mel频率倒谱系数(Mel-Frequency Cepstral Coefficients, MFCC)及其衍生特征参数、感知线性预测系数(Perceptual Linear Prediction, PLP)和线性预测倒谱系数(Linear Prediction Cepstrum Coefficients, LPCC).LPCC是根据人的发声机理提出的,在所有频率上都线性逼近语音,与人耳听觉特性不一致,且LPCC中包含语音高频的大部分噪声细节,因此抗噪能力较差.MFCC和PLP考虑人耳的听觉感知的非线性频率特征,但存在的主要问题是子带滤波器幅频响应的形状不能很好拟合基底膜滤波器的形状.尽管如此,MFCC及移位差分倒谱(Shifted Delta Cepstrum, SDC)由于其相对优越的性能已成为当前主流特征提取算法,且最近一次的NIST评测也主要采用这种参数.近年来人们针对听觉感知提出一些其他特征,2009年张卫强和王玥等分别将Gammatone听觉模型引入到语种和说话人识别中,Kim等用指数函数代替传统的对数函数.这些特征都在一定程度上改善语言辨识系统的性能. 但是当测试环境与训练环境失配时,即背景噪音较大或者在回响时,由于现有的语音特征参数的鲁棒性较差,导致语言辨识系统的性能会急剧下降.为此很多学者针对此问题提出一些改进算法,Miller等通过实验得出人耳耳蜗的神经响应,CMU的Chiu等将其引入到现有语音特征参数提取算法中.而为提高参数的自适应性,Stern等采用数据驱动的策略,为语音段设计对应的补偿滤波器.这些改进均使现有语音特征参数的抗噪能力有所提高,实验表明在特定条件下其性能优于传统的特征.但是其应用还主要局限在数码串识别、说话人识别等领域. 本文针对MFCC参数求取过程中使用三角窗对基底膜滤波器的形状拟合不好的问题,用更符合人耳听觉感知的Gammachirp滤波器组代替原有的三角窗,同时考虑语音处理的子带特性,在Gammachirp感知模型的基础上,采用数据驱动策略,为每个子带设计对应的补偿滤波器,从而得到一种听觉感知鲁棒特征的提取算法,并通过实验验证其性能. 2 子带分频的识别 耳蜗具备频率选择功能,可将不同频率映射到基底膜上的不同位置,因此人耳对语音信号的识别是子带分频处理过程,而该过程常用一组带通滤波器实现. 2.1 耳蜗听神经的冲激响应函数及等效矩形带宽 Johannesma和Aertsen于1972年提出Gammatone滤波器组,最初是用来描述猫的听神经的生理学冲激响应.随后被进一步证明,该滤波器组同样较好拟合人耳的听神经的响应形状,是当前常用的耳蜗听觉模型. Gammatone滤波器的冲激响应函数为 gt(t)=atq-1exp(-2πbt)cos(2πfit+φ), 其中,时间t0,a为振幅,q与b为改变gamma函数分布的参数,且b=1.019ERB(fi),ERB(fi)是中心频率为fi的听觉滤波器等效矩形带宽(Equivalent Rectangular Bandwidth, ERB)的值.参数ERB(fi)的定义为 ERB(fi)=24.7+0.108fi. 2.2 gamachirp滤波器 由于实验技术的改进,Irino发现耳蜗的听觉机制是具有反馈的非线性特性.1997年Irino与Patterson在Gammatone听觉模型的基础上提出了Gammachirp滤波器组,该滤波器组相比Gammatone滤波器组增加符合耳蜗基底膜频率响应的非线性特性,更好地模拟基底膜滤波器的非对称性和强度依赖性,是当前最理想的听觉滤波器. Gammachirp滤波器的冲激响应函数为 gc(t)=atq-1exp(-2πbt)exp(j2πfrt+jclnt+jcφ). 与Gammatone滤波器相比,Gammachirp滤波器加入Chirp参数,会随着声压位阶而变化,体现在公式上,多了clnt这一项.这里的c是一个额外的频率调制参数,lnt是时间的自然对数,同时用非对称fr代替在Gammatone滤波器中对称的中心频率fi,这里的fr会随着c值的改变而改变,并且某种程度上依赖参数b和阶次q.由于人耳对相位信息不敏感,所以φ的取值为0.当c=0时,Gammachirp滤波器退化为Gammatone滤波器.Gammachirp滤波器的冲激响应时域波形与Gamma

文档评论(0)

lgjllzx + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档