多模态人机交互综述(译文).doc

  1. 1、本文档共31页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
多模态人机交互综述(译文).doc

Alejandro Jaimes, Nicu Sebe, Multimodal human–computer interaction: A survey, Computer Vision and Image Understanding, 2007. 多模态人机交互综述 摘要:本文总结了多模态人机交互(MMHCI, Multi-Modal Human-Computer Interaction)的主要方法,从计算机视觉角度给出了领域的全貌。我们尤其将重点放在身体、手势、视线和情感交互(人脸表情识别和语音中的情感)方面,讨论了用户和任务建模及多模态融合(multimodal fusion),并指出了多模态人机交互研究的挑战、热点课题和兴起的应用(highlighting challenges, open issues, and emerging applications)。 1. 引言 多模态人机交互(MMHCI)位于包括计算机视觉、心理学、人工智能等多个研究领域的交叉点,我们研究MMHCI是要使得计算机技术对人类更具可用性(Usable),这总是需要至少理解三个方面:与计算机交互的用户、系统(计算机技术及其可用性)和用户与系统间的交互。考虑这些方面,可以明显看出MMHCI 是一个多学科课题,因为交互系统设计者应该具有一系列相关知识:心理学和认知科学来理解用户的感知、认知及问题求解能力(perceptual, cognitive, and problem solving skills);社会学来理解更宽广的交互上下文;工效学(ergonomics)来理解用户的物理能力;图形设计来生成有效的界面展现;计算机科学和工程来建立必需的技术;等等。 MMHCI的多学科特性促使我们对此进行总结。我们不是将重点只放在MMHCI的计算机视觉技术方面,而是给出了这个领域的全貌,从计算机视觉角度I讨论了MMHCI中的主要方法和课题。 1.1. 动机 在人与人通信中本质上要解释语音和视觉信号的混合。很多领域的研究者认识到了这点,并在单一模态技术unimodal techniques(语音和音频处理及计算机视觉等)和硬件技术hardware technologies (廉价的摄像机和其它类型传感器)的研究方面取得了进步,这使得MMHCI方面的研究已经有了重要进展。与传统HCI应用(单个用户面对计算机并利用鼠标或键盘与之交互)不同,在新的应用(如:智能家居 [105]、远程协作、艺术等)中,交互并非总是显式指令(explicit commands),且经常包含多个用户。部分原因式在过去的几年中计算机处理器速度、记忆和存储能力得到了显著进步,并与很多使普适计算ubiquitous computing [185,67,66]成为现实的新颖输入和输出设备的有效性相匹配,设备包括电话(phones)、嵌入式系统(embedded systems)、个人数字助理(PDA)、笔记本电脑(laptops)、屏幕墙(wall size displays),等等,大量计算具有不同计算能量和输入输出能力的设备可用意味着计算的未来将包含交互的新途径,一些方法包括手势(gestures)[136]、语音(speech)[143]、触觉(haptics)[9]、 眨眼(eye blinks)[58]和其它方法,例如:手套设备(Glove mounted devices)[19] 和and可抓握用户界面(graspable user interfaces)[48]及有形用户界面(Tangible User interface)现在似乎趋向成熟(ripe for exploration), 具有触觉反馈、视线跟踪和眨眼检测[69]的点设备(Pointing devices)现也已出现。然而,恰如在人与人通讯中一样,当以组合方式使用不同输入设备时,情感通讯(effective communication)就会发生。 多模态界面具有很多优点[34]:可以防止错误、为界面带来鲁棒性、帮助用户更简单地纠正错误或复原、为通信带来更宽的带宽、对不同的状况和环境增加可选的通信方法。在很多系统中,采用多模态接口消除易出错模态(error prone modalities)的模糊性是多模态应用的重要动机之一,如Oviatt [123]所述,易出错技术可以相互补充,而不是给接口带来冗余和减少纠错的需要。然而,必须指出的是:多模态单独(multiple modalities alone)并不为界面带来好处,多模态的使用可能是无效的(ineffective),甚至是无益的(disadvantageous),据此,Oviatt[124]已经提出了多模态接口的共同错误概念(common misconceptio

文档评论(0)

tangtianbao1 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档