面向自然交互的多通道人机对话系统-人机语音交互课题组.pdf

下载文档 降价啦

13
0
约2.47万字
约 17页
2017-08-12 发布于天津
举报
版权申诉
保障服务

面向自然交互的多通道人机对话系统-人机语音交互课题组.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

面向自然交互的多通道人机对话系统-人机语音交互课题组

面向自然交互的多通道人机对话系统杨明浩，陶建华，李昊，巢林林中国科学院自动化研究所模式识别国家重点实验室，北京 100190 摘要：人们在对话过程中，除了使用口语交互外，还会很自然地利用表情、姿态等多模态信息辅助交流。本文重点分析并阐述了如何将这些多模态交互方式有效的融合到人机对话模型中，并实现一个面向自然交互的多模态人机对话系统。首先根据不同通道（如情感、头姿）对语音交互的影响，将它们主要分为信息互补、信息融合和信息独立三种模式，并针对三种模式分别采用不同的方式实现输入信息的多模态融合。信息融合后的对话管理，采用有限自动机、填槽法和混合主导方式的对话管理策略。针对对话中的情感处理，提出一种情感状态预测网络记录用户的情感变化，并根据话语的轮转的不同对话上下文对用户情绪变化进行及时反馈，该对话模型能比较灵活地处理用户在对话过程中呈现的多模态信息。信息输出方面，针对人机对话中较为常用的数字虚拟人的行为控制，提出了一种简化的多模态协同置标语言，实现了虚拟人的包括情感、姿态与语音的同步表达，提高了虚拟人的表现力。基于以上关键技术，最后实现了一个面向城市路况信息查询的多模态自然人机对话系统，相对于传统的语音人机对话模型，多个用户的体验表明本文的多通道自然人机对话系统能有效提高用户交互的自然度。关键词：多模态信息融合；人机交互；对话管理 1．引言 1 自计算机问世以来，人类就梦想着有朝一日能与计算机进行自然的对话，便捷的获取计算机提供的各种服务。近年来，随着语音识别、语音合成以及数字虚拟人表达技术的发展，人与计算机的自然对话已经获得很大的进步，如英国 BBC 电视台的网络女虚拟主播 Ananova[1] ，日本名古屋工业大学的数字虚拟人等等[2]，美国南加州大学的数字智能生命体（Creative Agent ）[3]，这些虚拟人能以逼真的语气朗读用户给定的文字，理解用户的查询需求，回答用户的购物问题和票务信息查询系统信息等等，甚至还可以以幽默的口气对语音识别不准确的问题进行反问，如苹果公司的语音助手 Siri。可以说数字虚拟人与人的自然对话已经在实验室环境下取得长足的进步，成为自然人机交互的重要发展方向。然而，目前的自然语音交互技术距离实用化以及进入人们的生活，还有很多问题需要解决，其中一个重要的方面就是人与计算机的对话很不自然，如计算机对交互过程中人的情绪、姿态和语气变化缺乏良好的反馈，目前的订票、旅游信息查询等人机对话系统中，当用户对查询结果不理解或者没有得到满意答案时，系统通常缺乏对用户状态的积极反馈，使得用户的体验较差，不愿多次使用。另外，人机对话的输出比较呆板，如目前的大多人机系统多采用语音合成或者数字虚拟人的方式输出对用户问题的回答，通常数字虚拟人的动作都事资助项目：中国自然科学基金（项目批准号 61011140075,）联系作者：杨明浩，E-mail ：mhyang@ 和谐人机环境 2013 中国南昌先录制好，当对话的回合较多，数字虚拟人的动作就会重复，也在一定程度上降低了人机对话的自然度。为了解决这个问题，本文提出了一种面向自然交互的多通道人机对话系统原型，这里自然交互指对计算机对用户在对话过程中的情绪、语气、姿态（如头姿）等变化进行实时的检测和跟踪，同时，为了确保数字虚拟人能较好的对用户交互进行反馈，我们根据不同通道对语音交互的影响，构建了信息互补、信息融合和信息独立三种信息融合模式，来实现输入信息的多模态融合。信息融合后的对话管理，采用有限自动机、填槽法和混合主导方式的对话管理模型；针对对话中的情感处理，提出一种情感状态预测网络记录用户的情感变化，并根据话语的轮转的不同对话上下文对用户情绪变化进行及时反馈。信息输出方面，针对人机对话中较为常用的数字虚拟人的行为控制，提出了一种简化的多模态协同置标语言，实现了虚拟人的包括情感、姿态与语音的同步表达，提高了虚拟人的表现力。本文后面组织如下，第二节首先介绍相关工作；第三节给出本文提出的多模态人机对话系统框架；对话管理模型中多模态信息融合方法，对话中的用