面向人机交互的强化学习与意图推理-控制科学与工程专业毕业论文.docxVIP

  • 106
  • 0
  • 约7.2万字
  • 约 83页
  • 2019-05-11 发布于上海
  • 举报

面向人机交互的强化学习与意图推理-控制科学与工程专业毕业论文.docx

万方数据 万方数据 A DISSERTATION PRESENTED TO SHANGHAI JIAO TONG UNIVER- SITY IN PARTIAL FULFILLMENT OF THE REQUIREMENTS FOR THE MASTER DEGREE REINFORCEMENT LEARNING AND INTENTION INFERENCE FOR HUMAN-ROBOT INTERACTION Department: Department of Automation Major: Control Science and Engineering Author: Li Jie Advisor: Prof. Su Jianbo School of Electronics and Electric Engineering Shanghai Jiao Tong University Shanghai, P.R. China December, 2014 上海交通大学硕士学位论文 上海交通大学硕士学位论文 面向人机交互的强化学习与意图推理 摘 要 赋予智能系统以强大的学习能力以及丰富的人机交互功能是智能系 统在动态不确定环境中完成复杂任务的必由之路。在实际的交互过程中, 要想完成智能体与人类用户的自然有效的交互,又需要对人类的意图进 行正确的推断和识别。如何建立一个融合强化学习和用户意图推理的学 习体系来实现智能系统的高级交互智能,进而应用于复杂的人机交互任 务,具有重要的学术价值和实际意义。 本文以智能机器人在实际的动态复杂环境中完成人机交互任务为背 景,针对交互任务中如何对人的意图进行有效的识别,进而用以提升强 化学习算法的适应能力和收敛速度,从强化学习和意图推理两个方面进 行了相关研究,设计并提出了面向人机交互的强化学习和意图推理算法, 并通过人机交互实验验证了算法的有效性。本文的工作主要包括: 1)设计了基于粒子滤波和强化学习的目标跟踪控制框架,以在动态 不确定环境下对目标人进行跟踪 针对现有的机器人跟随控制算法不能适应动态变化环境的特点,设 计提出了一种基于视觉传感的机器人跟踪控制框架,将粒子滤波算法与 强化学习算法相结合,使得之能够完成在动态不确定环境下对目标人进 行有效跟踪的任务。 2)提出了基于灰色预测的意图推理算法,实现对人行走意图的预测, 以提升跟踪算法对人运动变化的适应能力 由于现有的跟踪控制算法没有考虑人的行走规律,因而使机器人在 第 I 页 第 II 第 II 页 万方数据 完成跟随任务时存在一定的迟滞,且难以适应人在行走方向和速度上的 变化。本文提出了一种基于灰色预测新陈代谢 GM (1,1) 模型的用户意图推 理算法,对人的行走意图进行建模,并用以对机器人的控制量进行修正, 从而提升了机器人跟随的适应能力。 3)设计了基于贪婪指导的快速交互式强化学习算法,以实现对人指 导信息的充分有效利用,加速强化学习算法的收敛 为了使机器人充分利用人交互过程中人给出的指导信息,在任务空 间中进行更有效的搜索,本文提出了一种基于贪婪指导的快速交互式强 化学习算法,从尽可能少的指导信息中挖掘出尽可能多的有效信息,加 快了算法的收敛速度,减少了人的参与度和工作量。 4)提出了一种基于意图推理的交互式强化学习算法,在人出现偶然 错误的情况下对其真实意图进行有效识别,避免了对学习过程的误导 在人机交互的过程中由于各种原因导致人给出的信息会有一定概率 出错。在此基础上,本文提出了两种意图建模算法,即人的奖惩意图建 模和指导意图建模,并将其与基于贪婪指导的快速交互式强化学习算法 相结合,设计了基于意图推理的交互式强化学习算法。对比实验证明了 该算法能够在人偶然出错的情况下,仍然能够对人的真实意图进行有效 的识别,从而避免了对学习任务的干扰和误导,使机器人仍能快速地完 成学习任务。 关键词:人机交互,强化学习,意图推理,灰色预测,奖惩信息,指导 信息,仿人机器人 第 PAGE 第 PAGE VII 页 万方数据 REINFORCEMENT LEARNING AND INTENTION INFERENCE FOR HUMAN-ROBOT INTERACTION ABSTRACT The only way for intelligent system to complete complex task under dy- namic uncertain environment is to have the functions of online learning and human-robot interaction. In the actual interaction process, to complete

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档