放宽端点限制地DTW法用于孤立词识别.PDFVIP

放宽端点限制地DTW法用于孤立词识别.PDF

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
放宽端点限制的D TW 法用于孤立词识别 姜天辰 夏仁平 ( ) 上海交通大学信息与控制工程系  上海 200240 摘 要 本系统是一个在多媒体 PC 上实现的孤立词识别系统, 它提取语音的线性预测 系数作为特征参数, 并采用 Itaku ra 失真测度计算帧间距离, 在识别上则使用了 动态时轴弯曲( ) 进行时间匹配。本系统对一般的 法作了改进, 即通 D TW D TW 过放宽端点限制以得到更好的语音匹配, 克服了一般D TW 法要求语音首尾严 格对齐而造成的弊病, 降低了语音端点检测的精度要求。 关键词 语音识别 动态时轴弯曲 端点限制 为200 点时, 自相关法与协方差法求解结果差别不大, 故选 引言 用快速且稳定的自相关法。既然采用了线性预测系数作为 [3 ] 语音识别是近年来在信号处理和人工智能领域内非常 特征参数, 就可以使用 Itakura 失真测度计算帧间距离 。 活跃的研究课题。这主要归功于计算机技术的迅速发展, 使 在实际设计算法时采用的是 Itakura 失真测度的一种变形 得需要大量数据处理的语音识别技术已能在较廉价的硬件 ——增益归一化测度, 这种测度与人的主观感觉较符合, 且 上实现; 而多媒体技术的发展对语音识别也提出了实用化 在实际应用中效果较好。 要求, 希望能将语音识别应用于 PC 上。本系统就是在多媒 2 动态时轴弯曲法进行时间匹配 体 PC 上实现的语音识别系统, 可以作为简单人机语音交 互的一个实例。 说话人对同一个词的两个发音不可能完全相同, 这些 人们已提出了许多方法用于语音识别, 动态时轴弯曲 差异不仅包括音强的大小、频谱的偏移, 更重要的是发音时 音节的长短不可能完全相同, 而且两次发音的音节往往不 (D TW ) 就是其中之一。其特点是识别率较高, 系统复杂度 存在线性对应关系。动态时轴弯曲(D TW ) 就是将发音在时 低, 但计算量偏大。目前PC 机已能胜任D TW 法的计算量, 间轴上进行弯曲, 以使两次发音能更好地匹配。 因此本系统的识别策略就基于D TW 法, 同时也对该算法 2. 1  的基本思路 作了一定的改进, 主要是对端点限制有所放宽。 D TW 设模板库中某模板发音共有M 帧, 而接收到的待识别 1 系统综述

文档评论(0)

133****0075 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档