基于Q学习算法移动机器人避障控制策略.docVIP

下载本文档

5
0
约2.68千字
约 5页
2017-11-25 发布于福建
举报
版权申诉

基于Q学习算法移动机器人避障控制策略.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于Q学习算法移动机器人避障控制策略

基于Q学习算法移动机器人避障控制策略　　【摘要】提出基于Q学习算法的移动机器人避障控制策略，能使移动机器人在不确定环境中顺利躲避障碍物，以最佳路径到达最终目标。将BP神经网络结合到Q学习算法中，采用人工势场法来确定强化函数值，并利用Boltzmann分布方法实现随机动作选取。仿真试验结果证明了此种控制策略具有良好的可行性。【关键词】移动机器人；强化学习；Q学习算法；避障 1.引言在实际的环境中，机器人的无碰撞路径规划是智能机器人研究的重要课题之一。Elisha Sacks详细地介绍了路径规划的前期研究工作[1]。在障碍空间中，机器人运动规划的高度复杂性使得这一问题至今未能很好的解决。特别对于不确定的动态环境下避障轨迹的生成是较为困难的。本研究应用强化学习算法来实现移动机器人的路径规划。强化学习是机器人通过学习来完成任务，它是将动态规划和监督学习结合起来的一种新的学习方法，通过机器人与环境的试错交互，借助于来自成功和失败经验的奖励和惩罚信号不断改进机器人的自治能力，从而到达最终目标，并容许后评价。在强化学习中，Q学习算法是从有延迟的回报中获取最优控制策略的方法 [2]。自从Watkins提出Q学习算法并证明其收敛性后[3]，该算法在强化学习研究领域中受到了人们的普遍关注。Wiliam 利用HEDGER算法实现了Q函数值的更新，并把此算法成功地应用在移动机器人上，从而实现了Q学习算法在连续状态和空间的求解问题[4]。Takahashi提出了连续值的Q学习方法，可以用来估计连续的动作值，但此方法只能实现简单的动作，有待于进一步的研究。我们将BP人工神经网络与Q学习算法相结合，采用人工势场法确定强化函数值和Boltzmann分布方法选取动作。利用这种控制策略得到的仿真结果证明，移动机器人能够在不确定环境下，有效地躲避障碍物，沿着最佳路径到达目标。 2.强化学习强化学习是一种重要的机器学习方法，同时也是连接主义学习的一种。在与复杂不确定环境交互作用时，它是决策者寻找最小耗费费用的方法。RL起源于人工智能领域的试凑学习。强化学习不同于监督学习，在监督学习中，对每次输入而言，相应的期望输出是已知的，即学习系统知道它的实际输出与期望输出的差值。然后通过真实输出和参考输出的差值来修改参数。在强化学习中，接收的信号是对一个行为的评价，这个评价可能是正、负或者零。这个信号表示不用告诉系统怎么做，而是系统自己决定做什么。机器人用这个信号决定到达目标的策略。强化学习算法如下所述： 1）在每个离散时间步t，机器人感知到当前状态x（t）， 2）在这个状态选择可能活动中的一个动作a（t）， 3）给出一个强化信号，并产生一个新的后继状态x（t+1）， 4）t 　　F（t）为机器人所受的斥力的合力，相邻时刻受力之差为（5）故奖励函数r（t）可表示为：（6） r（t）=-1表明移动机器人离障碍物较近，应该得到惩罚；r（t）=1表明移动机器人离障碍物较远，应该得到奖励；r（t） =0表明移动机器人距离障碍物的相对位置没变化，即不得到奖励，也不得到惩罚。 4.2 动作选取在Q学习收敛以后，最优策略就是对每一个状态选择一个使Q函数值最大的动作，这个最优策略也被称为贪婪策略。然而，在训练的开始，Q（x，a）并不是非常有意义，因此，时常会产生局部的重复。为了获得Q的一个有用的估计值，移动机器人必须扫描和估计所有状态下可能的活动。探测方法有三种：第一种方法是随机Pseudo方法，最佳值的动作按概率P选择，否则，在被给定的状态下所有可能的动作中任意的选取一个动作；第二种方法是极端Pseudo方法，最佳值的动作按概率P选择，否则，我们选取在给定的状态下很少选择的动作；第三种方法是Boltzmann分布方法。 Q学习算法的目的是迭代出一个最大的希望折扣强化信号，这意味着学习的目的是学会对应于环境状态的最优的策略动作。因为强化学习只能根据当前的状态（包括Q值和环境的状态）加以某种随机源产生一个动作。探测方法中的第三种方法能很好的实现随机动作的选取。因此，选用第三种方法作为随机源产生随机动作的方法。 5.仿真试验结果为了验证算法的可行性，对基于Q学习算法移动机器人的控制进行了仿真，仿真平台使用的是MOBOTSIM，并在此基础上进行了二次开发。 6.结论本文提出了一种用Q学习算法来实现移动机器人智能避障的控制策略，把BP神经网络结合到Q学习算法中，应用人工势场法来确定强化函数值。仿真试验结果证明了移动机器人能够在不确定的环境下成功地躲避障碍物，并以最佳的路径到达目标。基于Q学习算法的控制策略能使移动机器人获取自学习功能，增强了机器