- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于变衰减因子的q-学习研究
在介绍q-学习的基本算法后,它与传统的研究策略和强化学习算法相结合,提出了q-学习的可变衰减因素。在模拟系统中进行了验证,并在文本末尾显示了详细的模拟结果。
1 q-学习的基本算法
1.1 无指导的探索策略
当机器人面对一个新状态时, 它需要从动作集选取一个动作执行。一方面, 它应当尽可能多地尝试不同的动作;另一方面, 它又面临着算法适时收敛的问题。这就带来了设计合适的探索策略的问题。目前, 研究人员设计了多种探索策略, 它按照是否将学习结果加以应用可以分为无指导 (undirected) 和有指导 (directed) 两类。无指导的探索策略没有应用学习结果于指导探索;而有指导的探索策略将学习的成果应用于动作的选取。ε-Greedy就是一种典型的有指导性探索策略。
如果每次总是选取最大化Q(s,a) (描述状态s下选择动作a的值) 的动作, 容易陷入局部最优值, 因此在动作选取的时候通常引入一定概率的随机变化。当前状态s下, 机器人以一定概率1?ε+ε|A|1-ε+ε|A|取最大化Q(s,a) 的动作amax, 而以概率ε进行随机选取, 这就是ε-Greedy探索策略。通常来说, 在学习的早期阶段, 机器人对环境一无所知, 因此, 它总是或多或少地随机选择动作;随着学习的深入开展和对知识掌握程度的加深, 这种随机性应当逐渐降低。因此, 在学习初始时,ε可以选取较大值, 如 0.9, 以增加随机探索 (不选择当前的最优动作) 的机会;然后随着训练的进行,ε逐渐降低, 最终变为一个很小的正数, 从而保证算法逐渐收敛。
1.2 环境状态集和q值的更新
Q学习即再励学习, 是一种实时的、在线的强化学习方法。它采用试错法 (trial-and-error) , 不需要建立环境和任务的精确数学描述。因此, 不需要告诉机器人如何达到它的目标, 只需告诉它目标是什么。通过学习, 机器人能够从获取的关于系统状态、动作、奖励的有用的经验中掌握一套优化的策略和知识。
图1 是一个标准的再励学习模型, 通常它由以下几部分组成:
⑴环境状态集合S(s∈S)s可以有无限多个, 此时对应连续状态的情况。一般情况下, 考虑S为有限集。
⑵机器人动作集A(a∈A) 含的动作个数表示为|A| , 通常个数是有限的。
⑶增强信号r(R为增强函数) 通常为实数, 反映了采取某种动作后的效果。
⑷输入函数I理想情况下, 机器人可以确切地知道当前环境的状态, 即i与s相同。
该算法无需任何模型,Q值的更新是算法的核心, 描述如下:
Step_1 对于当前状态s, 按一定的策略选取动作a。
Step_2 机器人执行被选取的动作, 状态由s转换为s′。同时机器人从环境中获得一个奖赏r, 于是得到{s,a,s′,r}。
Step_3 更新Q(s,a) 的值
Q(s,a)∶=Q(s,a)+α?(r+γ?maxQ(s′,a)?Q(s,a))Q(s,a)∶=Q(s,a)+α?(r+γ?maxQ(s′,a)-Q(s,a))
式中Q(s,a) 是Q学习的积累回报函数, 是指在状态s执行完动作a后希望获得的积累回报, 它取决于当前的立即回报和期望的延时回报。式中α是学习率,γ是衰减因子, 其值 0≤γ1,γ可以被看作是衰减率, 受到的奖励基于一定γ的进行几何衰减。
2 改进q学习算法
传统Q算法采用的是定值衰减因子γ, 其值0≤γ1, 是一个确定的常量, 这影响了算法的收敛速度, 基于此问题考虑, 本文提出了变衰减因子Q学习算法, 该算法很好地结合了ε-Greedy探索策略和传统的Q学习算法, 使其同时具有两者的优势, 能够使得机器人更快地到达目标位置。在ε-Greedy探索策略中动作选取的时候通常引入一定概率的随机变化, 当前状态s下, 机器人以一定概率1?ε+ε|A|1-ε+ε|A|选取最大化Q(s,a) 的动作amax, 而以概率ε进行随机选取, 而概率ε是一个常量, 其值保持不变, 不会根据相应的行为结果做出更新, 这限制了收敛的速度。基于以上思考, 提出了根据实际情况按需更新选取最大化Q(s,a) 的动作amax的概率, 提出了基于变衰减因子的改进Q学习算法, 目标是使长期奖励信号最大。既使用相应函数γ′=γ?1kγ′=γ?1k替换定值衰减因子γ, 其中k是从状态 (s,a) 到状态 (s′,a′) 的变化次数, 随着k值的增大, 变衰减因子γ′不断发生变化, 但k越大, 变衰减因子γ′却基本上不要改变, 其值趋向于一个定值, 使奖励信号取向得到了最大认可。
基于变衰减因子的改进Q学习算法如下:
Step_1 对于当前状态s, 按一定的策略选取动作a。
Step_2 机器人执行被选取的动作, 状态由s转换为s′。同时机器人从环境中获得一个奖赏γ
原创力文档


文档评论(0)