语音识别系统之管窥.docxVIP

下载本文档

3
0
约 4页
2016-09-22 发布于安徽
举报
版权申诉

语音识别系统之管窥.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

语音识别系统之管窥通过语音相互传递信息，这是人类最重要的基本功能之一，而与机器进行语音交流，让机器明白你说什么，这是人么长期以来梦寐以求的事。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术。计算机语音识别是智能计算机系统的重要特征。这一技术的应用将从根本上改变计算机的人机界面，从而对计算机的发展以及推广应用产生深远的影响。历史 1952年贝尔研究所Davis等人研究成功了世界上第一个能识别10个英文数字发音的实验系统。1960年英国的Denes等人研究成功了第一个计算机语音识别系统。而大规模的语音识别研究是在进入了70年代以后，在小词汇量、孤立词的识别方面取得了实质性的进展。DARPA(Defense Advanced Research Projects Agency)是在70年代由美国国防部远景研究计划局资助的一项10年计划，其旨在支持语言理解系统的研究开发工作。进入80年代以后，研究的重点逐渐转向大词汇量、非特定人连续语音识别。在研究思路上也发生了重大变化，即由传统的基于标准模板匹配的技术思路开始转向基于统计模型 (HMM)的技术思路。此外，再次提出了将神经网络技术引入语音识别问题的技术思路。美国国防部远景研究计划局资助了一项为期10年的DARPA战略计划，其中包括噪声下的语音识别和会话（口语）识别系统，识别任务设定为“（1000单词）连续语音数据库管理”。进入90年代以后，在语音识别的系统框架方面并没有什么重大突破。但是，在语音识别技术的应用及产品化方面出现了很大的进展。我国的语音识别研究起始于1958年，由中国科学院声学所利用电子管电路识别10个元音。直至1973年才由中国科学院声学所开始计算机语音识别。由于当时条件的限制，我国的语音识别研究工作一直处于缓慢发展的阶段。进入80年代以后，随着计算机应用技术在我国逐渐普及和应用以及数字信号技术的进一步发展，国内许多单位具备了研究语音技术的基本条件。 1986年3月我国高科技发展计划(863计划)启动，语音识别作为智能计算机系统研究的一个重要组成部分而被专门列为研究课题。在863计划的支持下，我国开始了有组织的语音识别技术的研究，并???定了每隔两年召开一次语音识别的专题会议。从此我国的语音识别技术进入了一个前所未有的发展阶段。分类按识别器的类型： 1.孤立单词识别(Isolated Word Recognition) 识别的单元为字、词或短语，它们组成识别的词汇表，对它们中的每一个通过训练建立标准模板或模型。 2.连续语音识别(Continuous Speech Recognition) 3. 连续单词识别(Connected Word Recognition) ：以比较少的词汇为对象，能够完全识别每个词。识别的词汇表和标准样板或模型也是字、词或短语，但识别时可以是它们中间几个的连续。 4. 连续言语识别与理解(Conversational Speech Recognition): 以多数词汇为对象，待识语音是一些完整的句子。虽不能完全准确识别每个单词，但能够理解其意义，连续言语识别也称会话语音识别。理解是在语音识别之后，根据语言学知识来推断语音的含义内容的。按识别器对使用者的适应情况：特定人语音识别(Speaker-Dependent) 语音识别的标准模板或模型只适应于某个人，实际上，该模板或模型就是该人通过输入词汇表中的每个字、词或短语的语音建立起来的。其他人使用时，需同样建立自己的标准模板或模型。非特定人语音识别(Speaker-Independent) 语音识别的标准模板或模型适应于指定的某一范畴的说话人（如说标准普通话），标准模板或模型由该范畴的多个人通过训练而产生。识别时可供参加训练的发音人（圈内人）使用，也可供未参加训练的同一范畴的发音人（圈外人）使用。几种基本方法一般来说，语音识别的方法有三种：基于声道模型和语音知识的方法、模板匹配的方法以及利用人工神经网络的方法。 1.基于声道模型和语音知识的方法。该方法起步较早，在语音技术提出的开始，就有了这方面研究，但由于其模型及语音知识过于复杂，如今仍未达到实用阶段。 2.模板匹配的方法。此方法比较成熟，目前已达到实用阶段。在模板匹配的方法中，要经过四个步骤:特征提取、模板训练、模板分类、判决。常用的技术有三种：动态时间规整（DTW），隐马尔可夫模型（HMM）理论、矢量量化（VQ）技术。 3.神经网络的方法。利用人工神经网络的方法是80年代末期起初的一种新的语音识别方法。人工神经网络本质上是一个自适应非动力学系统，模拟了人类神经活动原理，具有自适应性、并行性、鲁棒性、容错性和学习特性，其强大的分类能力和输入输出映射能力在语音识别系统中都很有吸引力。但由于