- 1、本文档共82页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
9.1语音识别概述
9.2动态时间规整DTW
9.3孤立词语音识别
9.4连续语音识别
;9.1语音识别概述;一、语音识别的定义;二、语音识别的应用;1.语音识别以IBM推出的ViaVoice为代表,国内则推出Dutty++语音识别系统、天信语音识别系统、世音通语音识别系统等。
2.数据库检索:对庞大的数据进行繁杂的检索和查询,通过使用语音识别技术,将变得轻松、方便。
3.特殊的环境所需的语音命令:用语音发出操作指令。;采用语音识别和语音合成技术,能与客户进行交互式对话,帮助客户找到他们所需要的商品。一个动作传感器可以启动系统,询问顾客“需要我帮你寻找什么吗?”如果顾客回答说“我在找面包。系统将会告诉顾客:“面包在第11过道,就是直接往前第3个过道,我们今天有WHEATIO面包特惠,需要我为您打印一张优惠券吗?;三、语音识别的类型;2.根据识别的词汇量来分,有:
(1)大词汇(1000个以上的词汇,如会议系统)
(2)中词汇(20~1000个词汇,如定票系统)
(3)小词汇(1~20个词汇,如语音电话拨号);四、语音识别的方法;模板匹配法;随机模型法;概率语法分析法;1.对自然语言的识别和理解。首先必须将连续的讲话分解为词、音素等单位,其次要建立一个理解语义的规则。
2.语音信息量大。语音模式不仅对不同的说话人不同,对同一说话人也是不同的,例如,一个说话人在随意说话和认真说话时的语音信息是不同的。一个人的说话方式随着时间变化。;3.语音的模糊性。说话者在讲话时,不同的词可能听起来是相似的。这在英语和汉语中常见。
4.上下文影响。单个字母或词、字的语音特性受上下文的影响,以致改变了重音、音调、音量和发音速度等。
5.环境噪声和干扰对语音识别有严重影响,致使识别率低。;9.2动态时间规整;一、动态时间规整的定义;二、动态时间规整的原理描述;DTW是把时间规整和距离测度计算结合起来。测试语音参数共有N帧矢量,而参考模板共有M帧矢量,N和M不等,寻找一个时间规整函数m=,它将测试矢量的时间轴n非线性地映射到模板的时间轴m上,并使该函数w(n)满足:
;;时间规整就是按照两模式之间的所有矢量帧间的???离最小(D,代价函数最小)的原则,不断计算两模式间的距离,以寻找最优的路径,一般应使规整函数
满足下列条件:规整函数在A和B的端点必须匹配,有:
起点:n(i)=m(i)=1终点:n(i)=Nm(i)=M
为了防止漫无目的从(1,1)搜索到(N,M),因此对两点之间路径的斜率予以规定,最大为2,最小为1/2。;;n;;DTW算法的实现;DTW算法的实现;DTW的高效算法;;DTW的高效算法;;9.3孤立词语音识别系统;;9.4连续语音识别系统;;HMM连续语音识别一般过程;Baum-Welch
Re-estimation;MAX;汉语语音建模基元比较;HMM用于SR的参数设置;适用于语音识别的HMM模型结构;作业;回顾
9.2动态时间规整DTW
9.3孤立词语音识别
9.4连续语音识别
;9.1语音识别概述;一、语音识别的定义;二、语音识别的应用;1.语音识别以IBM推出的ViaVoice为代表,国内则推出Dutty++语音识别系统、天信语音识别系统、世音通语音识别系统等。
2.数据库检索:对庞大的数据进行繁杂的检索和查询,通过使用语音识别技术,将变得轻松、方便。
3.特殊的环境所需的语音命令:用语音发出操作指令。;采用语音识别和语音合成技术,能与客户进行交互式对话,帮助客户找到他们所需要的商品。一个动作传感器可以启动系统,询问顾客“需要我帮你寻找什么吗?”如果顾客回答说“我在找面包。系统将会告诉顾客:“面包在第11过道,就是直接往前第3个过道,我们今天有WHEATIO面包特惠,需要我为您打印一张优惠券吗?;三、语音识别的类型;2.根据识别的词汇量来分,有:
(1)大词汇(1000个以上的词汇,如会议系统)
(2)中词汇(20~1000个词汇,如定票系统)
(3)小词汇(1~20个词汇,如语音电话拨号);四、语音识别的方法;模板匹配法;随机模型法;概率语法分析法;1.对自然语言的识别和理解。首先必须将连续的讲话分解为词、音素等单位,其次要建立一个理解语义的规则。
2.语音信息量大。语音模式不仅对不同的说话人不同,对同一说话人也是不同的,例如,一个说话人在随意说话和认真说话时的语音信息是不同的。一个人的说话方式随着时间变化。;3.语音的模糊性。说话者在讲话时,不同的词可能听起来是相似的。这在英语和汉语中常见。
4.上下文影响。单个字母或词、字的语音特性
您可能关注的文档
- 《语音信号处理》MFCC梅尔频率倒谱系数.pptx
- 《语音信号处理》第3章语音信号分析1.pptx
- 《语音信号处理》第4章矢量量化.pptx
- 《语音信号处理》第5章 隐马尔科夫模型.pptx
- 《语音信号处理》第7章语音编码.pptx
- 《语音信号处理》第8章语音合成.pptx
- 《语音信号处理》第10章说话人识别与语种辨别.pptx
- 《语音信号处理》第八讲HMM隐马尔科夫模型.pptx
- 《语音信号处理》基音及提取方法.pptx
- 2024江西江铃专用车辆厂有限公司招聘60人笔试参考题库附带答案详解 .docx
- 2024年陕西咸阳亨通电力(集团)有限公司供电服务业务部直聘用工招聘145人笔试参考题库附带答案详解 .docx
- 2024年中建四局土木工程有限公司校园招聘笔试参考题库附带答案详解 .docx
- 2024年四川雅茶贸易有限公司公开招聘和考察聘用人员3人笔试参考题库附带答案详解 .docx
- 2024年中国烟草总公司辽宁省公司公开招聘拟录用人员(166人)笔试参考题库附带答案详解 .docx
- 2024江苏连云港中诚物业管理有限公司招聘工作人员1人笔试参考题库附带答案详解 .docx
- [毕节]2025年贵州毕节市引进人才649人笔试历年参考题库附带答案详解.docx
- 2024年度中国东航技术应用研发中心有限公司校园招聘笔试参考题库附带答案详解 .docx
- 2024年福建省厦门盐业有限责任公司春季人才招聘1人笔试参考题库附带答案详解 .docx
- 2024年山东省环保发展集团绿能有限公司职业经理人招聘2人笔试参考题库附带答案详解 .docx
- 2024年安徽滁州郊源阳光电力维修工程有限责任公司招聘41人(第一批次)笔试参考题库附带答案详解 .docx
文档评论(0)