- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
放宽端点限制的D TW 法用于孤立词识别
姜天辰 夏仁平
( )
上海交通大学信息与控制工程系 上海 200240
摘 要 本系统是一个在多媒体 PC 上实现的孤立词识别系统, 它提取语音的线性预测
系数作为特征参数, 并采用 Itaku ra 失真测度计算帧间距离, 在识别上则使用了
动态时轴弯曲( ) 进行时间匹配。本系统对一般的 法作了改进, 即通
D TW D TW
过放宽端点限制以得到更好的语音匹配, 克服了一般D TW 法要求语音首尾严
格对齐而造成的弊病, 降低了语音端点检测的精度要求。
关键词 语音识别 动态时轴弯曲 端点限制
为200 点时, 自相关法与协方差法求解结果差别不大, 故选
引言
用快速且稳定的自相关法。既然采用了线性预测系数作为
[3 ]
语音识别是近年来在信号处理和人工智能领域内非常 特征参数, 就可以使用 Itakura 失真测度计算帧间距离 。
活跃的研究课题。这主要归功于计算机技术的迅速发展, 使 在实际设计算法时采用的是 Itakura 失真测度的一种变形
得需要大量数据处理的语音识别技术已能在较廉价的硬件 ——增益归一化测度, 这种测度与人的主观感觉较符合, 且
上实现; 而多媒体技术的发展对语音识别也提出了实用化 在实际应用中效果较好。
要求, 希望能将语音识别应用于 PC 上。本系统就是在多媒 2 动态时轴弯曲法进行时间匹配
体 PC 上实现的语音识别系统, 可以作为简单人机语音交
互的一个实例。 说话人对同一个词的两个发音不可能完全相同, 这些
人们已提出了许多方法用于语音识别, 动态时轴弯曲 差异不仅包括音强的大小、频谱的偏移, 更重要的是发音时
音节的长短不可能完全相同, 而且两次发音的音节往往不
(D TW ) 就是其中之一。其特点是识别率较高, 系统复杂度
存在线性对应关系。动态时轴弯曲(D TW ) 就是将发音在时
低, 但计算量偏大。目前PC 机已能胜任D TW 法的计算量,
间轴上进行弯曲, 以使两次发音能更好地匹配。
因此本系统的识别策略就基于D TW 法, 同时也对该算法
2. 1 的基本思路
作了一定的改进, 主要是对端点限制有所放宽。 D TW
设模板库中某模板发音共有M 帧, 而接收到的待识别
1 系统综述
原创力文档


文档评论(0)