- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Ⅳ 语音识别 Ⅳ 语音识别(1) 本章主要内容 4.1 概述 4.2 动态时间弯折识别技术 4.3 隐马尔可夫模型技术 4.4 大词汇量连续语音识别技术 4.5 关键词检出技术 Ⅳ 语音识别(2) 4.1 概述 语音识别(Speech Recognition)是机器通过识别和理解过程把人类的语音信号转变为相应的文本或命令的技术。 根本目的是研究出一种具有听觉功能的机器,能直接接受人的语音,理解人的意图,并做出相应的反映。 从技术上看,它属于多维模式识别和智能接口的范畴。 Ⅳ 语音识别(3) 4.1.1 语音识别的基本原理 Ⅳ 语音识别(4) 4.1.2 语音识别的分类 按词汇表(Vocabulary)的大小分 小词汇表系统:包括10~100个词条 中词汇表系统:包括100~1000个词条 大词汇表系统:至少包含1000个以上的词条 按照发音方式分 孤立词(Isolated Word )识别 连接词(Connected Word)识别 连续语音(Continuous Speech)识别 Ⅳ 语音识别(5) 4.1.2 语音识别的分类 按说话人的限定范围分 特定人(Speaker Dependent,SD)识别 非特定人(Speaker-Independent ,SI)识别 按照识别方法分 模板匹配方法:DTW 概率模型方法:HMM Ⅳ 语音识别(6) 4.2 动态时间弯折的识别技术 DTW(Dynamic Time Warping )是一种模板匹配技术,是模式识别中最常用的一种相似度计算与匹配方法。 Ⅳ 语音识别(7) Ⅳ 语音识别(8) 如何对准 Ⅳ 语音识别(9) 将对准问题,或者说将求两个语音段的相似度问题,转化成了搜索代价最小的最优路径问题。 事实上,在搜索过程中,往往要进行路径的限制。 Ⅳ 语音识别(10) Ⅳ 语音识别(11) 这样就可从 Ⅳ 语音识别(12) Ⅳ 语音识别(13) Ⅳ 语音识别(14) 对所求得的 Ⅳ 语音识别(15) 模板的训练 Ⅳ 语音识别(16) Ⅳ 语音识别(17) Ⅳ 语音识别(18) 要求:编制DTW匹配程序 输入:语音矢量序列X1,X2 输出: X1,X2的相似度得分 Ⅳ 语音识别(19) 基于DTW的连接词语音识别技术 连接词 (1) 连续发音,不知道语音中词的个数和词的边界信息。 (2) 词表有限,可以象孤立词识别一样,以词为单位建模。 连接词识别 连接词识别,就是指系统存储的是针对孤立词的模板,但是识别的语音却是由这些词构成的词串。 Ⅳ 语音识别(20) 1、连接词识别问题的一般描述 Ⅳ 语音识别(21) Ⅳ 语音识别(22) Ⅳ 语音识别(23) Ⅳ 语音识别(24) 2、 二阶动态规划算法 Ⅳ 语音识别(25) 看一看当词的数目确定为2时,我们如何来计算 Ⅳ 语音识别(26) Ⅳ 语音识别(27) Ⅳ 语音识别(28) Ⅳ 语音识别(29) 3、分层构筑算法(Level Building) 二阶动态规划算法的计算量还可以进一步减少。 Ⅳ 语音识别(30) 分层构筑(Level-Building,简称LB)算法最早由Bahl和Jelinek提出,并用于解码中。后来Myers和Rabiner将其与DTW结合,获得了非常好的结果。 LB算法将待识语音序列按模板可能的时长范围划分为若干段,每段称为一层,可能对应一个词。 算法首先在各个层内用待识语音片断与各个模板逐点进行匹配,争取在当前层中找到最佳匹配路径,接着进行逐层匹配求出整个过程中的最优路径。 Ⅳ 语音识别(31) LB算法与DTW的结合 Ⅳ 语音识别(32) Ⅳ 语音识别(33) 则有: Ⅳ 语音识别(34) Ⅳ 语音识别(35) Ⅳ 语音识别(36) Ⅳ 语音识别(37) Ⅳ 语音识别(38) Ⅳ 语音识别(39) 定义 为在第l层,使用参考模板 与待识语音匹配到第m帧时的最小累计距离。 在第一层,每个参考模板与待识语音从第1帧开始使用DTW算法进行匹配对准 ,与模板最后一帧相对应的待识语音可能处在一定的范围内,则仅在其可能的范围内存储 。 其中, 和 为第v个参考模板的端点范围 。且由于每个参考模板的长度不一定相同,应允许 为第一层指定端点范围:覆盖所有参考模板 即仅在 范围内,保存第一层的累计距 。 将第一层的想法可以推广到 l 层。 第一层全部计算完后,才开始第二层的计算
文档评论(0)