《人机交互技术》实验二.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
《人机交互技术》实验二

人机交互技术论文 软件091班 092543 王晶 语音识别 ——多用户通道 王晶 (河北工业大学计算机科学与软件学院软件091班,天津092543) 摘要:完成对语音识别多通道用户界面的综述(包括定义、发展历史、当前的应用、主要的研究方法分类、以及发展前景以及中英文参考文献) 关键词:语音识别;预处理;识别;后处理 1、语音识别多通道用户界面定义 语音识别是一门交叉学科。近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。人们预计,未来10年内,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。 语音识别听写机在一些领域的应用被美国新闻界评为1997年计算机发展十件大事之一[1]。很多专家都认为语音识别技术是2000年至2010年间信息技术领域十大重要的科技发展技术之一。 随着计算机技术的发展,人们迫切需要一种更加自然的、更加能为多数人所接受的方式与计算机沟通。在人机对话方面寻求最好的语音信息交换手段是发展人机语音通信和新一代智能计算机的主要组成部分。随着计算机的普及,越来越多的人在使用计算机,如何给不熟悉计算机的人提供一个友好的人机交互手段,逐渐引起了人们的重视。从而也就诞生了计算机语音学。计算机语音学覆盖了广泛的研究活动,包括语音识别、语音合成、语音编码、自然语言理解、机器翻译等。语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。 语音识别技术是计算机通过识别和理解的过程把语音信号转变为相应的文本文件或命令的技术。当人们想对计算机说话时,通常首先需要进行语音识别,即将声音信号转换成单词流。[2] 2、发展历史 语音识别的研究工作大约开始于50年代机器翻译研究热潮时期,当时ATTBell实验室实现了第一个可识别十个英文数字的语音识别系统——Audry系统。 60年代,计算机的应用推动了语音识别的发展。这时期的重要成果是提出了动态规划(DP)和线性预测分析技术(LP),其中后者较好地解决了语音信号产生模型的问题,对语音识别的发展产生了深远影响。 70年代,伴随自然语言理解的研究以及微电子技术的飞速发展,语音识别领域取得了突破性进展。在理论上,线性预测分析技术(LP)得到进一步发展,动态时间弯折技术(D丁W)基本成熟,特别是提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。在实践上,实现了基于线性预测倒谱和DTW技术的特定人孤立词语音识别系统1231。 80年代,新一代智能计算机的研制,以及模式识别、自然语言理解等技术的成熟,为语音识别技术的突破打下了基础,语音识别研究进一步走向深入,其显著特征是HMM模型和人工神经元网络(ANN)在语音识别中的成功应用[3]。HMM模型的广泛应用应归功于ATTBell实验室Rabine等科学家的努力,他们把原本艰涩的HMM纯数学模型工程化,从而为更多研究者了解和认识。 进入90年代,随着多媒体时代的来临,迫切要求语音识别系统从实验室走向实用。许多发达国家如美国、日本、韩国以及IBM、APPle、ATT、Microsoft等著名公司都看好语音识别的应用前景,为语音识别系统的实用化开发研究投以巨资,语音识别技术实用化进程大大加速,并出现了许多实用化的研究方向。IBM公司率先推出的ViaVoice标志着大词汇量、非特定人、连续语音识别技术正在趋于成熟。voiceXML作为新的行业标准和Speechobjects、W3C一起为语音识别技术注/\了新的活力。VoiceXML使通过语音创建互联网网页和信息更为容易,Speech Objects可以提高语音应用程序的运行速度,而语音浏览器W3C则允许人们通过语音指令访问互联网。[4]微软也推出了语音识别引擎和SDK模块。语音识别今后的发展方向,将由连续语音进入自然话语识别与理解,并着手解决语音识别中的一系列难题,如鲁棒性问题,难度还会加大,但前景是乐观的。 最近几年里,语音识别技术的显著进展,带来了高性能的算法和系统。用于语音拨号、语音命令控制、简单的数据输入和准备结构化文档的语音识别工具已经开始出现。 3、主要的研究方法分类 语音识别技术是计算机通过识别和理解的过程把语音信号转变为相应的文本文件或命令的技术。一个完整的语音识别系统应包括以下三个部分: 语音特征提取 语音信号在完成模/数转换后,还要进行特征提取,一方面为了获得语音的本质特征;另一方面还可以进行数据的压缩。目前通用特征提取的方法是基于语音帧的,即将语音信号分为有重叠的若干帧,对每一帧提取语音特征。 声学模型 声学模型是用于从语音到音节的概率计算。在识别时将提取的语音特征与声学模型比较并匹配,以获得最佳的识别效果。目前广泛采用的声学建模法有:隐马

文档评论(0)

kaiss + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档