基于强化学习算法的机器人系统觅食任务研究-模式识别与智能系统专业论文.docx

基于强化学习算法的机器人系统觅食任务研究-模式识别与智能系统专业论文.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
摘要 摘要 Xl 摘要 基于行为的机器人系统必须具备学习能力,爿能使其逐步提高解决问题的能 力,由于强化学习机制能够使机器人具有在线的自学习能力,所以被广泛应用于 机器人的行为学习领域。强化学习算法研究的核心问题是算法的收敛速度,因此 对提高其学习速度的研究最为广泛和深入。但传统的结果奖赏仅仅关注任务的完 成与否,忽略了完成任务过程中的每个动作和趋势,使机器人通过试错而获得的 经验仅被一次性用于调整Q函数,强化学习自身产生的经验没有充分的利用。 多机器人系统比单机器人具有更强的优越性,如并行性、柔性、鲁棒性等, 因此多机器人的研究已引起普遍重视。多个机器人在共同的环境中运行时,会产 生资源冲突问题,如何消解多机器人系统冲突是其关键问题。基于手工编程的消 解策略可能会由于环境的改变而无法适用,同时当任务和环境变得复杂时,完全 依靠程序员的手工编程实现冲突消解,就变的非常复杂,甚至是不可能的。 鉴于当前的研究现状,本文的研究目标有两个方面:一是研究机器人中强化 学习算法,提出过程奖赏的概念,充分利用强化学习自身产生的经验,从而提高 系统性能和学习速度;二是基于强化学习算法的多机器人系统的冲突消解策略, 以解决系统冲突问题。 研究的第一部分是建立考虑噪声影响的仿真实验平台。平台对于噪声的处理 是利用基于行为的机器人的特性,将噪声视为机器人的一种基本行为,然后以权 重的形式与其它基本行为进行组合,组成机器人的次底层行为。这部分还以机器 人的导航为任务,定量研究噪声叠加方式和噪声模型对机器人完成导航任务所需 的行程时间产生的影响。仿真结果表明如果仿真实验平台不考虑实际系统中不可 避免引入的噪声的影响,在仿真实验平台研究的成果很难移植到实际系统中。 第二部分是提出过程奖赏概念,建立一种过程奖赏函数。过程奖赏利用基于 行为的机器人的特征:一个任务一般由一系列的动作组成,对机器人在完成任务 中的每个动作和趋势都进行奖赏。过程奖赏从四个方面提高算法收敛速度和机器 人的系统性能:(a)过程奖赏对机器人的每个动作提供实时奖赏,充分利用强化学 习自身产生的经验:(b)过程奖赏可以终止某些行为,鼓励尝试新行为带来奖赏; 博士学位论文:基于强化学习算法的机器人系统觅食任务研究(c)过程奖赏降低了在特定条件下由于错误的行为而获得的偶然奖赏:(d)过程 博士学位论文:基于强化学习算法的机器人系统觅食任务研究 (c)过程奖赏降低了在特定条件下由于错误的行为而获得的偶然奖赏:(d)过程 奖赏通过加强条件——行为关系降低强化学习算法对噪声的敏感度。仿真结果表 明基于过程奖赏和优先扫除算法(vs—process)在系统性能和学习速度上的优越性。 第三部分是提出强化学习对噪声鲁棒性的具体评价方法,同时提出基于强化 学习的噪声消解策略。评价方法包括:(a)对噪声水平的鲁棒性,即在信噪比很 低的情况下,强化学习算法仍能令人满意地让机器人进行自主学习;(b)对噪声 形式的鲁棒性,即不要求指定特殊的噪声模型形式:(c)对噪声特性的鲁棒性,即 不要求相关噪声模型满足特殊性质,不要求噪声与观测信号之间的相关性。仿真 结果表明PS—process满足这三个评价方法,能为由噪声造成的间断和潜在的错误 奖赏提供了去噪效果,说明vs—process作为噪声消解策略的有效性。 第四部分是提出基于强化学习的多机器人系统的冲突消解策略。直接应用单 机器人的强化学习算法,同时考虑到多机器人系统觅食任务的冲突主要发生在基 地区附近的特点,引入过程奖赏以代替全局奖赏、局部奖赏和子任务方法,它可 以解决这些奖赏造成的状态空间和动作空间大、错误奖赏等问题,也可以终止可 能引起冲突的行为、充分利用强化学习自身产生的经验,并能实时对机器人的每 个动作提供奖赏。仿真结果表明PS-process作为多机器人系统冲突消解策略是有 效的。 关键词:过程奖赏、强化学习、噪声、基于行为、机器人、多机器人系统 Abstract Abstract X11l Abstract Behavior-based robot must possess learning capability in order to improve progressively the abilities of solving problems.Reinforcement learning is widely applied in the field of behavior learn

您可能关注的文档

文档评论(0)

peili2018 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档