车载多媒体系统中语音识别技术研究.pdfVIP

车载多媒体系统中语音识别技术研究.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
车载多媒体系统中语音识别技术研究 摘要:本文针对车载多媒体系统的特点,对语音识别的端点检测、 语音特征参数提取以及识别模式进行了研究  关键词 :车载系统 语音识别 端点检测 特征参数提取 识别 模式   中图分类号:tn912 文献标识码:a 文章编号: 1007-9416(2012)02-0082-01   由于生活节奏的加快,汽车已 成为了人们生活中重要的工具,人 们在车内的时间也更多。同时也希望能够在车内接收到外界的信息 继续进行工作,还要求汽车有娱乐功能,因此促进了车载多媒体的 发展。而车载多媒体传统的人机交互方式会增加潜在的驾驶危险,为 此将语音识别应用于车载多媒体系统中,将会是车载多媒体发展的 重要方向。端点检测、特征参数提取以及识别是语音识别的主要内 容,本文也将从这三个方向对车在多媒体系统的语音识别进行研究   1、端点检测  在进行语音识别时,首先需要通过端点检测来对语音信号中的无 声片段和有声片段进行分割。目前,语音端点识别已 从开始的单 一门限发展到了基于模糊理论的判决。但是对于车载多媒体而言,计 算量较大、识别响应时间较长端点检测的方法显然不使用,所以主 要采用基于短平均过零率和短时间平均幅度的方法来进行语音端 点检测,这种方法利用短时间内幅度的检测和过零率来作为语音端 点的检测  首先,利用短时幅度可以有效判断语音端点,同时语音的浊音部 分平均幅度会明显大于噪声的平均幅度,然后同时再辅以短时过零 率的方法来判断语音开始的浊音,从而进一步对端点检测进行校准, 两者的结合能够更加精确的判断语音端点,并且两种算法都较为简 单,能够满足车在多媒体的需求  2、特征参数提取  在完成语音的端点检测之后,需要提取语音的特征参数,然后进 行语音识别。目前用于语音特征参数提取的算法主要有 lpcc (线性 预测倒谱系数)和 mfcc (mel 频率倒谱),由于 mfcc 具有更强的抗干 扰能力等特点,更适合与噪声较多、司机不能离输入设备很近的车 载环境  分析 mfcc 的语音特征参数提取可以分成预加重、加窗、fft (快速 傅里叶变换)、滤波、自然对数提取、自然对数 dct 计算这六个步骤 由于mfcc 其计算精度以及计算量都较大,因此,使用mfcc 作为车载 系统的语音特征参数提取时,需要进行相应的改进 :  (1)在 mfcc 实现的六个步骤中,例如加窗等步骤就可以实现进行 计算,然后存储在数组中,在使用时进行查表提取,从而避免每一 次语音识别时重复计算,从而加快了计算速度  (2)fft 需要花费大量的时间(据统计,fft 需要花费mfcc56.32% 的时 间[2]),由于 fft 算法是对复数进行处理,而语音信号的处理只涉及 到实数部分,其虚数部分为零,因此增加了运算时间,因此可以利用 文献 3 所提出的 fft 运算方法,将长度为 n 的 fft 预算降低到长度为 n/2 的 fft 运算,从而提高了语音特征参数提取效率  3、识别模式  语音识别的原理是模式匹配,通过计算现有语音模式与语音模板 库中的模板的距离,来获得最佳的匹配模式。匹配的方法主要有 dtw (动态时间规整)、hmm (隐马尔科夫模型)和 ann (人工神 元网 络)。由于 ann 计算量较大,因此不适合用于车载多媒体系统中, hmm 需要繁杂的程序结构,包含众多功能模块,需要大量的计算。因 此, dtw 模式更适合用于车载多媒体系统中。能够满足车载系统孤 立词、小词汇量的语音识别  为了更好的在车在多媒体系统中的嵌入式平台上实现dtw,对dtw 进行进一步的改进 :  (1) 由于在语音识别汇总,对音头和音尾的判断存在一定的误差, 因此,使用传统 dtw 方法在进行固定端点匹配时会存在一定的误差, 从而降低了语音匹配成功率 为此,可以采用放宽端点限制的方法 来使用 dtw 进行语音识别。其主要的思路是取消传统 dtw 中对音头 和音尾严格对其的限制。从而,只要两次语音在开始的 w 帧内能够 匹配成功,同时在结束的 w 帧内匹配成功,即认为两次语音匹配成 功。在降低了对端点检测的精度要求,符合车载系统小词汇量的特

文档评论(0)

152****7770 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档