- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
语音识别技术文献综述
语音识别技术综述
The summarization of speech recognition
刘阳升
长沙理工大学 长沙 湖南
摘要
本文回顾了语音识别技术的发展历史,综述了语音识别系统的结构、分类及基本方法,分析了语音识别技术面临的问题及发展方向。
关键词:语音识别;特征;匹配
Abstact
This article review the courses of speech recognition technology progress ,summarize the structure,classifications and basic methods of speech recognition system and analyze the direction and the issues which speech recognition technology development may confront with.
Key words: speech recognition;character;matching
引言
语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门交叉学科所涉及的领域信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。
图2-1 语音识别系统的基本结构图
语音识别的过程是一个模式识别匹配的过程。在这个过程中,首先要根据人的语音特点建立语音模型,对输入的语音信号进行分析,并抽取所需的特征,在此基础上建立语音识别所需的模式。而在识别过程中要根据语音识别的整体模型,将输入的语音信号的特征与已经存在的语音模式进行比较,根据一定的搜索和匹配策略,找出一系列最优的与输入的语音相匹配的模式。然后,根据此模式号的定义,通过查表就可以给出计算机的识别结果。
3.语音识别系统的分类
根据识别的对象不同,语音识别任务大体可分为3类,即孤立词识别(isolated word recognition),关键词识别(或称关键词检出,keyword spotting)和连续语音识别。其中,孤立词识别 的任务是识别事先已知的孤立的词,如“开机”、“关机”等;连续语音识别的任务则是识别任意的连续语音,如一个句子或一段话;连续语音流中的关键词检测针对的是连续语音,但它并不识别全部文字,而只是检测已知的若干关键词在何处出现,如在一段话中检测“计算机”、“世界”这两个词。
根据针对的发音人,可以把语音识别技术分为特定人语音识别和非特定人语音识别,前者只能识别一个或几个人的语音,而后者则可以被任何人使用。显然,非特定人语音识别系统更符合实际需要,但它要比针对特定人的识别困难得多。
另外,根据语音设备和通道,可以分为桌面(PC)语音识别、电话语音识别和嵌入式设备(手机、PDA等)语音识别。不同的采集通道会使人的发音的声学特性发生变形,因此需要构造各自的识别系统。,(如音素、音节、词素) 的始点和终点的位置,,60 年代日本学者Itakura 提出了动态时间规整算法。算法的思想就是把未知量均匀地伸长或缩短,,,,(词) 识别系统中,DTW 算法提出。
(2)隐马尔可夫模型(HMM)
隐马尔可夫模型是20世纪70年代引入语音识别理论的,HMM 模型的。HMM是对语音信号的时间序列结构建立统计模型,:一个是用具有有限状态数的Markov链来模拟语音信号统计特性变化的隐含的随机过程,Markov链的每一个状态相关联的观测序列的随机过程。前者通过后者表现出来,,,(不可观测的状态) 发出的音素的参数流。可见HMM合理地模仿了这一过程,,HMM 相比,:将语音信号波形的k 个样点的每一帧,k 个参数的每一参数帧,k维空间中的一个矢量,,k 维无限空间划分为M 个区域边界,,,,,,80 年代末期提出的一种新的语音识别方法。人工神经网络(ANN)本质上是一个自适应非线性动力学系统, ,, - 输出映射能力在语音识别中都很有吸引力。但由于存在训练、识别时间太长的缺点, ANN 不能很好的描述语音信号的时间动态特性, ANN 与传统识别方法结合, 1) 就算法模型方面而言,,,,2) 就自适应方面而言,,,
(3) 就强健性方面而言,,,,
(4) 多语言混合识别以及无限词汇识别方面:将来的语音和声学模型可能会做到将多种语言混合纳入,,,,
(5) 多语种交流系统的应用:是将语音识别技术、机器翻译技术以及语音合成技术的完美结合,
(6) 语音情感识别:近年来随着人工智能的发展,,,以上介绍了实现语音识别系统的各个方面的技术。这些技术在实际使用中达到了较好的效果,但如何克服影响语音的各种因素还需要更深入地分析。目前听写机系统还不能完全实用化以取代键盘的输入,但识别技术的成熟同时推动了更高层次的
文档评论(0)