车载多媒体系统中语音识别技术的的研究.docVIP

车载多媒体系统中语音识别技术的的研究.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
车载多媒体系统中语音识别技术研究 摘要:本文针对车载多媒体系统的特点,对语音识别的端点检测、语音特征参数提取以及识别模式进行了研究。 关键词:车载系统 语音识别 端点检测 特征参数提取 识别模式 中图分类号:tn912 文献标识码:a 文章编号:1007-9416(2012)02-0082-01 由于生活节奏的加快,汽车已经成为了人们生活中重要的工具,人们在车内的时间也更多。同时也希望能够在车内接收到外界的信息继续进行工作,还要求汽车有娱乐功能,因此促进了车载多媒体的发展。而车载多媒体传统的人机交互方式会增加潜在的驾驶危险,为此将语音识别应用于车载多媒体系统中,将会是车载多媒体发展的重要方向。端点检测、特征参数提取以及识别是语音识别的主要内容,本文也将从这三个方向对车在多媒体系统的语音识别进行研究。 1、端点检测 在进行语音识别时,首先需要通过端点检测来对语音信号中的无声片段和有声片段进行分割。目前,语音端点识别已经从开始的单一门限发展到了基于模糊理论的判决。但是对于车载多媒体而言,计算量较大、识别响应时间较长端点检测的方法显然不使用,所以主要采用基于短平均过零率和短时间平均幅度的方法来进行语音端点检测,这种方法利用短时间内幅度的检测和过零率来作为语音端点的检测。 首先,利用短时幅度可以有效判断语音端点,同时语音的浊音部分平均幅度会明显大于噪声的平均幅度,然后同时再辅以短时过零率的方法来判断语音开始的浊音,从而进一步对端点检测进行校准,两者的结合能够更加精确的判断语音端点,并且两种算法都较为简单,能够满足车在多媒体的需求。 2、特征参数提取 在完成语音的端点检测之后,需要提取语音的特征参数,然后进行语音识别。目前用于语音特征参数提取的算法主要有lpcc(线性预测倒谱系数)和mfcc(mel频率倒谱),由于mfcc具有更强的抗干扰能力等特点,更适合与噪声较多、司机不能离输入设备很近的车载环境。 分析mfcc的语音特征参数提取可以分成预加重、加窗、fft(快速傅里叶变换)、滤波、自然对数提取、自然对数dct计算这六个步骤。由于mfcc其计算精度以及计算量都较大,因此,使用mfcc作为车载系统的语音特征参数提取时,需要进行相应的改进: (1)在mfcc实现的六个步骤中,例如加窗等步骤就可以实现进行计算,然后存储在数组中,在使用时进行查表提取,从而避免每一次语音识别时重复计算,从而加快了计算速度。 (2)fft需要花费大量的时间(据统计,fft需要花费mfcc56.32%的时间[2]),由于fft算法是对复数进行处理,而语音信号的处理只涉及到实数部分,其虚数部分为零,因此增加了运算时间,因此可以利用文献3所提出的fft运算方法,将长度为n的fft预算降低到长度为n/2的fft运算,从而提高了语音特征参数提取效率。 3、识别模式 语音识别的原理是模式匹配,通过计算现有语音模式与语音模板库中的模板的距离,来获得最佳的匹配模式。匹配的方法主要有dtw(动态时间规整)、hmm(隐马尔科夫模型)和ann(人工神经元网络)。由于ann计算量较大,因此不适合用于车载多媒体系统中,hmm需要繁杂的程序结构,包含众多功能模块,需要大量的计算。因此, dtw模式更适合用于车载多媒体系统中。能够满足车载系统孤立词、小词汇量的语音识别。 为了更好的在车在多媒体系统中的嵌入式平台上实现dtw,对dtw进行进一步的改进: (1)由于在语音识别汇总,对音头和音尾的判断存在一定的误差,因此,使用传统dtw方法在进行固定端点匹配时会存在一定的误差,从而降低了语音匹配成功率。为此,可以采用放宽端点限制的方法来使用dtw进行语音识别。其主要的思路是取消传统dtw中对音头和音尾严格对其的限制。从而,只要两次语音在开始的w帧内能够匹配成功,同时在结束的w帧内匹配成功,即认为两次语音匹配成功。在降低了对端点检测的精度要求,符合车载系统小词汇量的特点,不会降低车载系统语音识别效率。 (2)在使用dtw进行语音模板匹配时,需要计算两个模板各帧的距离来计算模板之间的距离。加入模板库中的某个模板t有n帧,待识别的语音r有m帧,那么通常需要申请m×n长度的空间,再根据两个模板所有帧间距离计算整体长度。但是在实际的应用中,只需要m长度的空间来存放模板t第n-1帧与模板r中m帧之间的距离,在计算完第n帧与模板r中m帧之间的距离对m长度空间的数据进行替换,从而进行模板t第n+1帧与模板r中m帧之间的距离,从而节省了(n-1)×m的存储空间,这对车载系统有限存储空间的系统中有着非常重要的意义。 4、结语 相比于传统的按钮式、触摸屏式人机交互系统,语音识别对于车载多媒体系统有着非常重要的意义,将是车载多媒体系统重要的发展方向,本文针对车载多媒体系统对低cpu运算时间和地存储空间的特点,对

文档评论(0)

youyang99 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档