PLP及MFCC在藏语连续语音识别系统中的比较.docxVIP

PLP及MFCC在藏语连续语音识别系统中的比较.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
PLP及 MFCC在藏语连续语音辨别系统中地比较 【纲要】 本文阐述了常用地语音特色参数 , 并剖析了 mel 频谱 倒谱系数 mfcc)和感知线性展望系数 plp )地计算方法 , 并在藏 语拉萨话大词表连续语音辨别系统中分别提取 mfcc 和 plp 参数 , 并对辨别结果进行了比较 . 【要点词】 mel 倒谱 感知线性展望系数 mfcc plp 语音辨别 藏语 自动语音辨别研究开端于上世纪 50 年月 ,80 年月最大打破是隐 马尔科夫模型 hmm)地应用 , 语音辨别研究要点从特定人、小词 表、孤立词语音辨别向非特定人、大词表、连续语音辨别转移; 90 年月以来 , 语音辨别在模型细化、参数提取和优化、系统自适应 方面获得重要打破 . 进入本世纪 , 有名地研究机构和企业 , 如剑桥大 学、 ibm、cmu大学、微软、贝尔实验室等机构地大词表连续语音 辨别系统对特定说话人地辨别率达到 95%左右 . 面对中国将来市场 , 外国 ibm、apple 、motorola 等企业投入到汉语语音辨别系统地开 发. 我国语音辨别研究固然起步较晚 , 但发展发展快速 , 中国科学院 自动化研究所、声学研究所及清华大学、北京交通大学等机构都 展开了语音辨别地研究 , 整体上 , 汉语连续语音辨别地研究与外国 先进技术相差不大 . 实质环境对语音辨别地声学噪声鲁棒性要求愈来愈高 ,所以,提 取拥有鲁棒性和较强区分能力地特色向量对语音辨别系统拥有重 要地意义 . 当前常用地声学特色参数有鉴于线性展望剖析 (lpc 地倒谱 lpcc 、鉴于 mel 频次弯折地倒谱 mfcc 及鉴于听觉模型地感知线性展望 (plp 剖析等 . 因为考虑到人耳地听觉特征 ,mel 倒谱系数或感知线性展望系数已经成为当前主流地语音特色向量提取方法之一 , 加上它们地一阶、二阶差分以及对特色向量进行归一化办理此后 , 在大词汇量连续语音辨别问题上获得不错地结果 . 为了使系统拥有较好地鲁棒性 , 往常要对语音辨别系统地前端进行预办理 . 固然语音信号是非安稳信号 , 但在一个小地时段内拥有相对地稳固性 , 所以在对语音信号进行剖析时 , 我们老是假定语音信号在一个时间帧 (frame 内是安稳信号 , 这就是语音信号地短时剖析假定 . 往常一帧大概为 20ms左右 . 对一帧信号经过加 hamming 窗、 hanning 窗或矩形窗后再进行特色剖析就能够获得相应地一组特 征, 而后经过把剖析窗挪动一个偏移 称为帧移 , 往常为一帧地 1/2 或 1/3, 而后进行下一帧地办理 . 1.mfcc 地计算 mel 频次倒谱参数 (mfcc, 着眼于人耳地听觉特征 . 人耳所听到地 声音地高低与声音地频次其实不可线性正比关系 , 从人类听觉系统地研究成就来看 , 人耳分辨声音频次地过程如同一种取对数地功能 , 而 mel 频次尺度则更切合人耳地听觉特征 . 近似于临界频带地区分 , 能够将语音频次区分红一系列三角形地 滤波器序列 , 即 mel 滤波器组 .mel 频次和频次地关系以下: mel(f=2595lg(1+f/700 mel 频次带宽随频次地增添而变化 , 在 1000hz 以下 , 大概呈线性散布 , 带宽为 100hz 左右 , 在 1000hz 以上呈对数增添 . 将频谱经过 24 个三角滤波器 , 此中中心频次在 1000hz 以上和以下地各 12 个.滤波器地中心频次间隔特色是在 1000hz 以下为线性散布 ,1000hz 以上为等比数列散布 . 图 1 mel 三角滤波器 mfcc 地详细计算过程以下: 1 由原始信号计算其 dft, 获得失散谱 {s n n n} t ( = 1,2,..., ; 2三角滤波器地输出则为此频次带宽内所有信号幅度谱加权和 . l = 1,2,....,24 3 对所有滤波器输出作对数运算 lnyl )) l= 1,2,....,24 4 作失散余弦变换 dct )获得 mel 频次倒谱参数 (mfcc. i = 1,2,...,p,p 为 mfcc 参数地阶数 , 取 p=12. 2.plp 地计算 感知线性展望 (plp 技术波及到听力、心理、物理学地三个概 念: (1 临界波段频谱分辨率; (2 等响度曲线; (3 强度 - 响度功 率定律 . 使用一个自回归全极点模型去迫近听觉频谱 .5 阶地全极点 模型能有效地克制听觉频谱中与话者有关地细节信息 . 与传统地线 性展望 (lp 剖析对比 , 在重申听觉这方面 ,plp 剖析更加合理 . plp 剖析流程: (1使用 fft 用对原始信号从时域变换到频域 , 获得功率谱 ; (2要点波段频谱剖析 critical-band sp

文档评论(0)

130****6858 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档