基于变衰减因子的q-学习研究.docxVIP

下载本文档

9
0
约2.67千字
约 3页
2023-11-19 发布于湖北
举报
版权申诉

基于变衰减因子的q-学习研究.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于变衰减因子的q-学习研究在介绍q-学习的基本算法后，它与传统的研究策略和强化学习算法相结合，提出了q-学习的可变衰减因素。在模拟系统中进行了验证，并在文本末尾显示了详细的模拟结果。 1 q-学习的基本算法 1.1 无指导的探索策略当机器人面对一个新状态时, 它需要从动作集选取一个动作执行。一方面, 它应当尽可能多地尝试不同的动作;另一方面, 它又面临着算法适时收敛的问题。这就带来了设计合适的探索策略的问题。目前, 研究人员设计了多种探索策略, 它按照是否将学习结果加以应用可以分为无指导 (undirected) 和有指导 (directed) 两类。无指导的探索策略没有应用学习结果于指导探索;而有指导的探索策略将学习的成果应用于动作的选取。ε-Greedy就是一种典型的有指导性探索策略。如果每次总是选取最大化Q(s,a) (描述状态s下选择动作a的值) 的动作, 容易陷入局部最优值, 因此在动作选取的时候通常引入一定概率的随机变化。当前状态s下, 机器人以一定概率1?ε+ε|A|1-ε+ε|A|取最大化Q(s,a) 的动作amax, 而以概率ε进行随机选取, 这就是ε-Greedy探索策略。通常来说, 在学习的早期阶段, 机器人对环境一无所知, 因此, 它总是或多或少地随机选择动作;随着学习的深入开展和对知识掌握程度的加深, 这种随机性应当逐渐降低。因此, 在学习初始时,ε可以选取较大值, 如 0.9, 以增加随机探索 (不选择当前的最优动作) 的机会;然后随着训练的进行,ε逐渐降低, 最终变为一个很小的正数, 从而保证算法逐渐收敛。 1.2 环境状态集和q值的更新 Q学习即再励学习, 是一种实时的、在线的强化学习方法。它采用试错法 (trial-and-error) , 不需要建立环境和任务的精确数学描述。因此, 不需要告诉机器人如何达到它的目标, 只需告诉它目标是什么。通过学习, 机器人能够从获取的关于系统状态、动作、奖励的有用的经验中掌握一套优化的策略和知识。图1 是一个标准的再励学习模型, 通常它由以下几部分组成: ⑴环境状态集合S(s∈S)s可以有无限多个, 此时对应连续状态的情况。一般情况下, 考虑S为有限集。 ⑵机器人动作集A(a∈A) 含的动作个数表示为|A| , 通常个数是有限的。 ⑶增强信号r(R为增强函数) 通常为实数, 反映了采取某种动作后的效果。 ⑷输入函数I理想情况下, 机器人可以确切地知道当前环境的状态, 即i与s相同。该算法无需任何模型,Q值的更新是算法的核心, 描述如下: Step_1 对于当前状态s, 按一定的策略选取动作a。 Step_2 机器人执行被选取的动作, 状态由s转换为s′。同时机器人从环境中获得一个奖赏r, 于是得到{s,a,s′,r}。 Step_3 更新Q(s,a) 的值 Q(s,a)∶=Q(s,a)+α?(r+γ?maxQ(s′,a)?Q(s,a))Q(s,a)∶=Q(s,a)+α?(r+γ?maxQ(s′,a)-Q(s,a)) 式中Q(s,a) 是Q学习的积累回报函数, 是指在状态s执行完动作a后希望获得的积累回报, 它取决于当前的立即回报和期望的延时回报。式中α是学习率,γ是衰减因子, 其值 0≤γ1,γ可以被看作是衰减率, 受到的奖励基于一定γ的进行几何衰减。 2 改进q学习算法传统Q算法采用的是定值衰减因子γ, 其值0≤γ1, 是一个确定的常量, 这影响了算法的收敛速度, 基于此问题考虑, 本文提出了变衰减因子Q学习算法, 该算法很好地结合了ε-Greedy探索策略和传统的Q学习算法, 使其同时具有两者的优势, 能够使得机器人更快地到达目标位置。在ε-Greedy探索策略中动作选取的时候通常引入一定概率的随机变化, 当前状态s下, 机器人以一定概率1?ε+ε|A|1-ε+ε|A|选取最大化Q(s,a) 的动作amax, 而以概率ε进行随机选取, 而概率ε是一个常量, 其值保持不变, 不会根据相应的行为结果做出更新, 这限制了收敛的速度。基于以上思考, 提出了根据实际情况按需更新选取最大化Q(s,a) 的动作amax的概率, 提出了基于变衰减因子的改进Q学习算法, 目标是使长期奖励信号最大。既使用相应函数γ′=γ?1kγ′=γ?1k替换定值衰减因子γ, 其中k是从状态 (s,a) 到状态 (s′,a′) 的变化次数, 随着k值的增大, 变衰减因子γ′不断发生变化, 但k越大, 变衰减因子γ′却基本上不要改变, 其值趋向于一个定值, 使奖励信号取向得到了最大认可。基于变衰减因子的改进Q学习算法如下: Step_1 对于当前状态s, 按一定的策略选取动作a。 Step_2 机器人执行被选取的动作, 状态由s转换为s′。同时机器人从环境中获得一个奖赏γ