人机交互论文-语音和听觉界面.docxVIP

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
人机交互论文-语音和听觉界面

摘要 随着数字化及智能化的普及,在日常生活及工作中,我们随处可以见到一些语音与听觉系统的应用,像公交车的语音报站系统、语音邮件系统、手机的语音命令拨打电话等等,都是这样的应用。那么,本文就现阶段的一些语音与音频技术,包括离散词语识别、连续语音识别、语音信息系统、语音生成、非语音听觉交互五种,针对每一类技术各自的应用领域、优缺点及其发展趋势进行了详细地探讨、分析。最后,整体总结分析了语音与听觉界面当前的发展及其未来发展趋势。 关键词:语音与听觉界面;离散词语识别;连续语音识别;语音信息系统;语音生成;非语音听觉界面 引言 对计算机讲话和让计算机说话的梦想已经诱惑了很多研究人员及幻想家。1968年,Arthur C. Clarke 在《2011:星际漫游》的书和电影中对HAL 9000 计算机的幻想,已经为科幻小说中计算机的性能和一些高级开发人员设定了标准。虽然硬件设计人员已经在语音识别、生成和处理方面取得了引人注目的进步,但是与科学小说的幻想相比,当前的成功仍是令人清醒的。 那么在现阶段,语音与听觉交互到底有着怎么样的发展呢?在哪些领域进行的了应用呢?应用的效果怎么样呢?优势与劣势各是什么呢?针对上述这些问题,语音与听觉交互的发展趋势又会是怎样呢 ?这些都是本文将要讨论的问题。 语音与听觉界面 通俗易懂的讲,语音交互是要实现对计算机讲话和让计算机讲话。目前语音交互取得了很多进展,但是仍然存在着很多不能忽视的问题。 总的来讲,语音交互的实际应用只有在他们适合用户的工作速度快,认知负载底,出错率低的需要时才会成功。从这些需求来看,语音交互似乎都不能很好地满足用户的需要,原因是:首先,语音输出是相对缓慢的;其次,与手眼协调相比,语音命令对用户工作记忆的要求更高,对正在执行任务的用户影响更大,比如计划和问题求解便是这样的;最后,背景噪声和用户语音的变体对语音识别的挑战仍旧很大,使得语音的识别的出错率还是占有一定的比重。 尽管语音交互存在着这么多不能忽视的,不尽如人意的问题,语音交互仍有以下一些方面的优点: = 1 \* GB3 ①语音存储转发和语音生成可预测、低成本、广泛可用。 = 2 \* GB3 ②对于有身体缺陷者,语音有明显好处。 = 3 \* GB3 ③电话会话的及时性和情感影响是人与人之间交流中引人瞩目的组成成分。 语音和音频技术有五种:离散词语识别、连续语音识别、语音信息系统、语音生成、非语音听觉交互。接下来,就从这五个具体方面,解析语音交互的优点与缺点,及可能的发展趋势。 2.1离散词语识别 离散词语识别设备识别特定人所说的单个词,对于100~10000 个词或更大的词汇量,其工作的可靠性能够达到90%~98%。目前,离散词语识别设备的使用分两种方式,一种是由使用者通过特定方式对系统进行词汇学习训练,另外一种则不进行,因为更容易推广。因为技术的限制,语音识别设备的固有缺点,使得语音的识别率并不是很高,可以通过下列方式提高识别率:安静的环境、头戴式话筒、精心选择的词汇。 离散词语识别技术的缺点是显而易见的,这种技术面临着如下的问题:因为他的不可靠的识别,许多用户不愿使用。语言识别设备的识别率低可能是由以下原因引起的:背景声音的改变、用户生病或者处于压力之下,词汇表中的单词相似。 其优点则是,通过语音识别设备,使用者就可以把眼睛与手等本来要用于关注指令的器官解放出来。当然这个优点是有局限性地,因为语音设备的使用,必然会占用用户的更多的工作记忆。所以并不能适应用户过多使用工作记忆的场合。 从上面对语音交互设备优点的阐述,可以知道,在一些特定的领域,语音识别仍有着较好的应用,比如飞机发送机机检察员就是用着语音系统。他们一边检查设备,一边通过头戴无线话筒发指令。同样地,离散词语识别设备针在身体有残疾者已经有着较好的应用。 相反地,如果是在普通的计算机应用系统上,使用显示器的用户就会明显胜于使用语音系统的。因为使用光标来检索或者操作比使用语音不论是从识别率还是效率上都要高效。用户的手脚与眼睛并不需要那么忙碌,而通过语音设备解放出来。 尽管从绘图程序对调色版的选取上来看,语音系统快过光标系统。问题是,语音系统占用用户的更多记忆。对于需要短时记忆工作的场景不合适。 因而对于语音系统,最重要的一点不足就是说命令或者听对计划和问题求解的破坏更大,会占用用户的工作记忆,在一些很需要工作记忆的地方就会暴漏出语音识别设备的不足。而在一些不太需要工作记忆的场合,比如玩具使用者的身上,语音设别就可以成功应用。 由于语音会占用用户的工作记忆这一点并不是容易解决的问题,当前研究项目就会专注于提高在困难条件下的识别率,使得语音识别系统在那些可以使用的场合下可以更高效地使用。这些研究包括尽量消除对与讲话者有关训练的需要,并把处理的词汇增加到

文档评论(0)

3471161553 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档