放宽端点限制地DTW法用于孤立词识别.PDFVIP

下载本文档

9
0
约1.18万字
约 3页
2017-06-07 发布于安徽
举报
版权申诉

放宽端点限制地DTW法用于孤立词识别.PDF

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

放宽端点限制的D TW 法用于孤立词识别姜天辰　夏仁平 ( ) 上海交通大学信息与控制工程系　上海 200240 摘　要本系统是一个在多媒体 PC 上实现的孤立词识别系统, 它提取语音的线性预测系数作为特征参数, 并采用 Itaku ra 失真测度计算帧间距离, 在识别上则使用了动态时轴弯曲( ) 进行时间匹配。本系统对一般的法作了改进, 即通 D TW D TW 过放宽端点限制以得到更好的语音匹配, 克服了一般D TW 法要求语音首尾严格对齐而造成的弊病, 降低了语音端点检测的精度要求。关键词语音识别　动态时轴弯曲　端点限制为200 点时, 自相关法与协方差法求解结果差别不大, 故选引言用快速且稳定的自相关法。既然采用了线性预测系数作为 [3 ] 语音识别是近年来在信号处理和人工智能领域内非常特征参数, 就可以使用 Itakura 失真测度计算帧间距离。活跃的研究课题。这主要归功于计算机技术的迅速发展, 使在实际设计算法时采用的是 Itakura 失真测度的一种变形得需要大量数据处理的语音识别技术已能在较廉价的硬件 ——增益归一化测度, 这种测度与人的主观感觉较符合, 且上实现; 而多媒体技术的发展对语音识别也提出了实用化在实际应用中效果较好。要求, 希望能将语音识别应用于 PC 上。本系统就是在多媒 2　动态时轴弯曲法进行时间匹配体 PC 上实现的语音识别系统, 可以作为简单人机语音交互的一个实例。说话人对同一个词的两个发音不可能完全相同, 这些人们已提出了许多方法用于语音识别, 动态时轴弯曲差异不仅包括音强的大小、频谱的偏移, 更重要的是发音时音节的长短不可能完全相同, 而且两次发音的音节往往不 (D TW ) 就是其中之一。其特点是识别率较高, 系统复杂度存在线性对应关系。动态时轴弯曲(D TW ) 就是将发音在时低, 但计算量偏大。目前PC 机已能胜任D TW 法的计算量, 间轴上进行弯曲, 以使两次发音能更好地匹配。因此本系统的识别策略就基于D TW 法, 同时也对该算法 2. 1　的基本思路作了一定的改进, 主要是对端点限制有所放宽。 D TW 设模板库中某模板发音共有M 帧, 而接收到的待识别 1　系统综述