- 1、本文档共189页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
最新语音识别技术与声纹鉴定原理2018年1月
语音识别概述 70年代语音识别领域取得了突破。在理论上,LP 技术得到进一步发展,动态时间规整技术(DTW)的基本成熟,特别是提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。在实践上,小词汇量孤立词的识别方面取得了实质性的进展 ,实现了基于线性预测倒谱和DTW技术的特定人孤立语音识别系统。这一时期的语音识别方法基本上是采用传统的模式识别策略。 80年代语音识别研究进一步走向深入,其显著特征是HMM模型和人工神经元网络(ANN)在语音识别中的成功应用。HMM模型的广泛应用应归功于ATT Bel实验室的Rabiner等科学家的努力,他们把HMM纯数学模型工程化,从而为更多研究者了解和认识。研究的重点逐渐转向大词汇量、非特定人连续语音识别。 90年代,随着多媒体时代的来临,在语音识别技术的应用及产品化方面出现了很大的进展。许多发达国家如美国、日本、韩国以及IBM,Apple,ATT,NTT等著名公司都为语音识别系统的实用化开发投以巨资。语音识别技术实用化进程大大加速,并出现了许多实用化产品。 IBM公司率先推出的汉语ViaVoice语音识别系统,带有一个32,000词的基本词汇表,可以扩展到65,000词,平均识别率可以达到95%,可以识别上海话、广东话和四川话等地方口音,是目前具有代表性的汉语连续语音识别系统。 语音识别概述 21世纪语音识别技术的应用及产品化方面进一步发展。在语音识别产品方面,各大公司纷纷推出自己产品。目前世界上最先进的语音识别软件,既不是微软生产的,也非IBM制造,它的名字叫做Naturally Speaking,出自于Nuance Communications公司。Naturally Speaking己经得到了大多数用户的认可。用户对着麦克风说话,屏幕上就显示出说话的内容,很容易识别和纠正错误.久而久之,该软件就会适应用户的说话风格。 我国语音识别研究工作起步于五十年代,但近年来发展很快,研究水平也从实验室逐步走向实用。从1987年开始执行国家863计划后,国家863智能计算机专家组为语音识别技术研究专门立项,每两年滚动一次。我国语音识别技术的研究水平己经基本上与国外同步,在汉语语音识别技术上还有自己的特点与优势,并达到国际先进水平。其中,具有代表性的研究单位是清华大学电子工程系与中科院自动化研究所模式识别国家重点实验室。 由清华大学电子工程系语音技术与专用芯片设计课题组研发的非特定人汉语数码串连续语音识别系统,识别精度达到了94.8%(不定长数字串)和96.8%(定长数字串). 语音识别概述 语音识别系统分类: 从说话者与识别系统的相关性分: (1)特定人语音识别系统:仅考虑对于专人的话音进行识别,与说话的语种没有关系; (2)非特定人语音识别系统:识别的语音与人无关,通常要用大量不同人的语音数据库对识别系统进行学习,识别的语言取决于采用的训练语音库; (3)多人的识别系统:通常能识别一组人的语音该系统通常要求对该组人的语音进行学习,通常可以识别三到五个人的语音。 从说话的方式分: (1)孤立词语音识别系统:其输入系统要求输入每个词后要停顿; (2)连接词语音识别系统:其输入系统要求对每个词都清楚发音,开始出现一些连音现象; (3) 连续语音识别系统:连续语音输入自然流利的语音,会出现大量的连音和变音。 另外从识别系统的词汇量大小分:小词汇量语音识别系统(几十个词);中等词汇量语音识别系统(几百到上千个词);大词汇量语音识别系统(几千到几万个词)。 语音识别概述 语音识别的基本方法: 一般来说,语音识别的方法有三种:基于声道模型和语音知识的方法、模 板匹配的方法以及利用人工神经网络的方法。 (1)语音学和声学的方法 该方法起步较早,在语音识别技术提出的开始,就有了这方面的研究,但由 于其模型及语音知识过于复杂,现阶段没有达到实用的阶段. (2)模板匹配的方法 模板匹配的方法发展比较成熟,目前己达到了实用阶段。常用的技术有三种: 动态时间规整(DTW)、隐马尔可夫(HMM)理论、矢量量化(VQ)技术。 (3)神经网络的方法 基于ANN的语音识别系统通常由神经元、训练算法及网络结构等三大要素构成。由于基于神经网络的训练识别算法由于实现起来较复杂,目前仍只是处于实验室研究阶段。 语音识别概述 目前语音识别的研究主流是大词汇量的非特定人的连续语音系统,但是事实上,对于许多应用来说,一个语音识别系统只要一组词汇或命
文档评论(0)