- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
摘要
摘要 Xl
摘要
基于行为的机器人系统必须具备学习能力,爿能使其逐步提高解决问题的能 力,由于强化学习机制能够使机器人具有在线的自学习能力,所以被广泛应用于 机器人的行为学习领域。强化学习算法研究的核心问题是算法的收敛速度,因此 对提高其学习速度的研究最为广泛和深入。但传统的结果奖赏仅仅关注任务的完 成与否,忽略了完成任务过程中的每个动作和趋势,使机器人通过试错而获得的 经验仅被一次性用于调整Q函数,强化学习自身产生的经验没有充分的利用。
多机器人系统比单机器人具有更强的优越性,如并行性、柔性、鲁棒性等, 因此多机器人的研究已引起普遍重视。多个机器人在共同的环境中运行时,会产 生资源冲突问题,如何消解多机器人系统冲突是其关键问题。基于手工编程的消 解策略可能会由于环境的改变而无法适用,同时当任务和环境变得复杂时,完全 依靠程序员的手工编程实现冲突消解,就变的非常复杂,甚至是不可能的。
鉴于当前的研究现状,本文的研究目标有两个方面:一是研究机器人中强化 学习算法,提出过程奖赏的概念,充分利用强化学习自身产生的经验,从而提高 系统性能和学习速度;二是基于强化学习算法的多机器人系统的冲突消解策略, 以解决系统冲突问题。
研究的第一部分是建立考虑噪声影响的仿真实验平台。平台对于噪声的处理 是利用基于行为的机器人的特性,将噪声视为机器人的一种基本行为,然后以权 重的形式与其它基本行为进行组合,组成机器人的次底层行为。这部分还以机器
人的导航为任务,定量研究噪声叠加方式和噪声模型对机器人完成导航任务所需 的行程时间产生的影响。仿真结果表明如果仿真实验平台不考虑实际系统中不可 避免引入的噪声的影响,在仿真实验平台研究的成果很难移植到实际系统中。
第二部分是提出过程奖赏概念,建立一种过程奖赏函数。过程奖赏利用基于 行为的机器人的特征:一个任务一般由一系列的动作组成,对机器人在完成任务 中的每个动作和趋势都进行奖赏。过程奖赏从四个方面提高算法收敛速度和机器 人的系统性能:(a)过程奖赏对机器人的每个动作提供实时奖赏,充分利用强化学 习自身产生的经验:(b)过程奖赏可以终止某些行为,鼓励尝试新行为带来奖赏;
博士学位论文:基于强化学习算法的机器人系统觅食任务研究(c)过程奖赏降低了在特定条件下由于错误的行为而获得的偶然奖赏:(d)过程
博士学位论文:基于强化学习算法的机器人系统觅食任务研究
(c)过程奖赏降低了在特定条件下由于错误的行为而获得的偶然奖赏:(d)过程 奖赏通过加强条件——行为关系降低强化学习算法对噪声的敏感度。仿真结果表 明基于过程奖赏和优先扫除算法(vs—process)在系统性能和学习速度上的优越性。 第三部分是提出强化学习对噪声鲁棒性的具体评价方法,同时提出基于强化 学习的噪声消解策略。评价方法包括:(a)对噪声水平的鲁棒性,即在信噪比很 低的情况下,强化学习算法仍能令人满意地让机器人进行自主学习;(b)对噪声 形式的鲁棒性,即不要求指定特殊的噪声模型形式:(c)对噪声特性的鲁棒性,即 不要求相关噪声模型满足特殊性质,不要求噪声与观测信号之间的相关性。仿真
结果表明PS—process满足这三个评价方法,能为由噪声造成的间断和潜在的错误 奖赏提供了去噪效果,说明vs—process作为噪声消解策略的有效性。
第四部分是提出基于强化学习的多机器人系统的冲突消解策略。直接应用单 机器人的强化学习算法,同时考虑到多机器人系统觅食任务的冲突主要发生在基 地区附近的特点,引入过程奖赏以代替全局奖赏、局部奖赏和子任务方法,它可 以解决这些奖赏造成的状态空间和动作空间大、错误奖赏等问题,也可以终止可 能引起冲突的行为、充分利用强化学习自身产生的经验,并能实时对机器人的每 个动作提供奖赏。仿真结果表明PS-process作为多机器人系统冲突消解策略是有 效的。
关键词:过程奖赏、强化学习、噪声、基于行为、机器人、多机器人系统
Abstract
Abstract X11l
Abstract
Behavior-based robot must possess learning capability in order to improve progressively the abilities of solving problems.Reinforcement learning is widely applied in the field of behavior learn
您可能关注的文档
- 基于旅游者行为分析的内蒙古博物院旅游管理研究-旅游管理专业论文.docx
- 基于康复性条件下儿童医院景观设计方法研究-建筑学专业论文.docx
- 基于枚举策略的二倍体单体型重建算法研究-计算机应用技术专业论文.docx
- 基于敏感电极界面及电活性纳米探针构建的高灵敏电流型免疫传感器的研究-分析化学专业论文.docx
- 基于情景感知服务的旅游行程规划研究-信息管理与信息系统专业论文.docx
- 基于情感语义的图像特征提取、检索与分类研究-通信与信息系统专业论文.docx
- 基于情境相似性的组织间知识转移绩效的研究-企业管理专业论文.docx
- 基于连续小波变换的质谱数据特征识别-计算机技术专业论文.docx
- 基于情境上下文和社交网络的个性化推荐方法研究-软件工程专业论文.docx
- 基于抗震策略的建筑设计研究-建筑设计及其理论专业论文.docx
- 小学课外数学活动案例总结报告.docx
- 乒乓球俱乐部2025年度业务活动情况和2026年度工作计划.docx
- 品质保证员2025年度工作总结及2026年计划.docx
- 【道 法】正确对待顺境和逆境课件- 2025-2026学年统编版道德与法治七年级上册.pptx
- 黑龙江高考:英语必考知识点归纳.doc
- (湖南)T8联考暨“五市十校”教学联盟2026届高三上学期12月检测训练物理试卷(含解析).docx
- 品质经理2025年度工作总结和2026年工作计划.docx
- 安徽省阜南实验中学2025-2026学年高二上学期第二次质量检测物理试卷.docx
- 黑龙江高考:物理重点知识点大全.doc
- Unit1Teenage Life青少年生活话题阅读精练 (解析版).docx
最近下载
- 国网半结构化面试实例及解析.pdf VIP
- 网络与信息安全管理员职业技能竞赛理论考试题库300题(含答案).docx VIP
- 国网结构化面试资料.pdf VIP
- 国网企业文化基础知识考试题库.doc VIP
- 胰岛素皮下注射团体标准.pptx VIP
- 微机原理与接口技术试题库(答案)微机原理与接口技术试题库(含答案)微机原理与接口技术试题库(含答案)微机原理与接口技术试题库(含答案).doc VIP
- 《微机原理及接口技术》.doc VIP
- 2025年国网企业文化基础知识考试题库及答案.docx VIP
- 美商海盗船 鼠标 无线游戏鼠标 DARK CORE RGB PRO SE 使用说明.pdf
- 企业文化、电力与能源战略参考题库(多选题上).docx VIP
原创力文档


文档评论(0)