网站大量收购独家精品文档,联系QQ:2885784924

机器人技术资料 第三章.pdf

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
机器人技术资料 第三章

第三章 基于改进 LCS 的多机器人学习算法 第三章 基于改进 LCS 的多机器人学习算法 学习能力是多移动机器人系统中单个机器人所需具备的重要能力之一 在各 种用于移动机器人的学习算法中 增强式学习由于只需通过很少的先验知识即可 使机器人获得很强的适应能力 近年来受到越来越广泛的关注 在各种增强式学习中 Q-learning 或改进的 Q-learning 应用的最多 Jonathan H. Connell 和 Sridhar Mahadevan 在Robot Learning 一书中将该方法应用于单个的 移动机器人推箱子问题 并且详细讨论了如何利用任务性质 传感器特性 环境 情况和现有控制结构来提高 Q-learning 的收敛速度 [55] Eiji Uchibe 等人提出了 一种改进的基于状态向量估计 Q-learning 方法 并成功地应用于实际机器人的学 习过程中 使足球机器人获得协作性行为 [53] Yashikazu Arai 等人提出了一种分 层式增强式学习算法[54] 实验结果表明 该方法对于机器人学习避碰行为很有 效 这些方法的问题在于其实施需要大量的存储空间 因为 Q-learning 要求纪录 机器人的每一个状态及其相应的权值 Marco Dorigo 和 Marco Colombetti 将学 习分类器 Learning Classifier System, LCS 应用于单个机器人 使之成功地学 会了追踪光源和逃避敌人 [56] 该方法的最终结果是使机器人发现一组用于指导 其行为的规则 由于每一条规则 或称为分类器 可以概括机器人的多个状态 因此 这种方法所需的存储空间远小于一般的 Q-learning. 但是 该方法也存在 学习速度低的问题 本章中 我们提出一种分布式的学习分类器方法 通过引入新的操作 并充 分利用多机器人系统的并行特性 使学习时间显著减少 同时保留了学习分类器 方法所需存储空间小的优点 本章分为四个部分 第一部分介绍基本的 LCS 方 法 第二部分介绍改进的 LCS 方法 第三部分介绍仿真试验及其结果 第四部 分是结论 3 1 基本的 LCS 方法 学习分类器系统由 Holland 在 1978 年首次提出 它实际上是一个并行的规则 发现系统 在该系统中 有两种算法同时进行 增强式学习和规则发现算法 增 强式学习用于确定规则 或分类器 的权值 权值是一个用来标志规则有用程度 的数值 用于确定规则权值大小的算法通常是 Holland 提出的 Bucket-brigade 算 33 中国科学院自动化所硕士学位论文 法 接着 在现有各规则的权值确定之后 规则发现算法开始执行 从现有规则 中淘汰掉较差的 权值较小的 并利用较优的规则产生出新的规则 然后开始 下一轮的增强式学习 规则发现算法一般使用遗传算法 而每一规则的权值即为 遗传算法中的适应度函数 本章着重介绍应用于移动机器人的 LCS,故此处的 LCS 与其他的 LCS 有一定 的区别 本章所述的学习分类器系统一般可分为三个子系统 执行子系统 权值 分配子系统和规则发现子系统 下面将分别介绍这三个子系统 3 1 1 执行子系统 执行子系统的功能是根据现有规则和当前环境信息执行相应的动作 它包括 规则集 Classifier Set, CS 匹配规则集 Match Classifier Set, MS ,消息列表 Message List, ML 拍卖模块 Auction Module 和冲突消解模块 Conflict Resolution Module 如下图所示

文档评论(0)

qiwqpu54 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档