- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
语音识别技术综述
The summarization of speech recognition
张永双
苏州大学 苏州 江苏
摘要
本文回顾了语音识别技术发展历史,综述了语音识别系统结构、分类及基础方法,分析了语音识别技术面临问题及发展方向。
关键词:语音识别;特征;匹配
Abstact
This article review the courses of speech recognition technology progress ,summarize the structure,classifications and basic methods of speech recognition system and analyze the direction and the issues which speech recognition technology development may confront with.
Key words: speech recognition;character;matching
引言
语音识别技术就是让机器经过识别和了解过程把语音信号转变为对应文本或命令高技术。语音识别是一门交叉学科,所包含领域有信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等,甚至还包含到人体态语言(如人民在说话时表情手势等行为动作可帮助对方了解)。其应用领域也很广,比如相对于键盘输入方法语音输入系统、可用于工业控制语音控制系统及服务领域智能对话查询系统,在信息高度化今天,语音识别技术及其应用已成为信息社会不可或缺关键组成部分。
1.语音识别技术发展历史
语音识别技术研究开始二十世纪50年代。1952年,ATTbell试验室Davis等人成功研制出了世界上第一个能识别十个英文数字发音试验系统:Audry系统。
60年代计算机应用推进了语音识别技术发展,提出两大关键研究结果:动态计划(Dynamic Planning, DP)和线性估计分析(Linear Predict, LP),其中后者很好处理了语音信号产生模型问题,对语音识别技术发展产生了深远影响。
70年代,语音识别领域取得突破性进展。线性估计编码技术(Linear Predict Coding, LPC)被Itakura成功应用于语音识别;Sakoe和Chiba将动态计划思想应用到语音识别并提出动态时间规整算法,有效处理了语音信号特征提取和不等长语音匹配问题;同时提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。在同一时期,统计方法开始被用来处理语音识别关键问题,这为接下来非特定人大词汇量连续语音识别技术走向成熟奠定了关键基础。
80年代,连续语音识别成为语音识别研究关键之一。Meyers和Rabiner研究出多级动态计划语音识别算法(Level Building,LB)这一连续语音识别算法。80年代另一个关键发展是概率统计方法成为语音识别研究方法主流,其显著特征是HMM模型在语音识别中成功应用。1988年,美国卡内基-梅隆大学(CMU)用VQ/HMM方法实现了997词非特定人连续语音识别系统SPHINX。在这一时期,人工神经网络在语音识别中也得到成功应用。
进入90年代后,伴随多媒体时代来临,迫切要求语音识别系统从试验走向实用,很多发达国家如美国、日本、韩国和IBM、Apple、ATT、NTT等著名企业全部为语音识别系统实用化开发研究投以巨款。最具代表性是IBMViaVoice和Dragon企业Dragon Dectate系统。这些系统含有说话人自适应能力,新用户不需要对全部词汇进行训练便可在使用中不停提升识别率。
目前,美国在非特定人大词汇表连续语音隐马尔可夫模型识别方面起主导作用,而日本则在大词汇表连续语音神经网络识别、模拟人工智能进行语音后处理方面处于主导地位。
国在七十年代末就开始了语音技术研究,但在很长一段时间内,全部处于缓慢发展阶段。直到八十年代后期,中国很多单位纷纷投入到这项研究工作中去,其中有中科院声学所,自动化所,清华大学,四川大学和西北工业大学等科研机构和高等院校,大多数研究者致力于语音识别基础理论研究工作、模型及算法研究和改善。但因为起步晚、基础微弱,计算机水平不发达,造成在整个八十年代,中国在语音识别研究方面并没有形成自己特色,更没有取得显著结果和开发出大型性能优良试验系统。但进入九十年代后,中国语音识别研究步伐就逐步紧追国际优异水平了,在“八五”、“九五”国家科技攻关计划、国家自然科学基金、国家863计划支持下,中国在汉字语音技术基础研究方面也取得了一系列结果。在语音合成技术方面,中国科大讯飞企业已含有国际上最领先关键技术;中科院声学所也在长久积累基础上,研究开发出颇具特色产品:在语音识别技术方面,中科院自动化所
文档评论(0)