- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
增强学习算法寻找最优策略探析
增强学习算法寻找最优策略探析 摘 要 如今人工智能发展迅速,在日常生活中越来越普及,与人工智能接触的机会越来越多。本文介绍了增强学习中的Q学习中如何找到最优策略以达到最终状态的过程和总结,以及通过试验对影响Q值的几个因素的进行了分析
【关键词】Q-learning 策略 探索 Q值 状态
1 实验背景
文章研究增强学习算法是如何找到最优策略以达到最终状态的。通过使用off-Policy TD Control即Q learning实现
2 实现和实验
2.1 方法和影响因素
起初机器人对环境一无所知,能做的只是采取行动然后根据反馈的信息进行判断。每次行走之前机器人会根据当前的动作产生一个次优策略。随着机器人行走步数增多,逐渐会优化行走策略。对于增强学习(Q-learning)考虑以下影响因素:
S:一组状态
A:机器人能够采取的动作
T:转换函数T
α:学习率,可扩展的范围和方向(范围从0到1)
γ:折扣因子(范围从0到1)
Living reward:生存状态时的奖励
Epsilon:随机采取动作或者在当前的策略上采取动作(范围从0到1)
Noise:一个影响机器人是否能采取正确动作的因子(范围从0到1)
注:s是当前状态,s是由当前状态执行操作后的状态
以上等式可以计算出Q值。最开始初始化Q值表中的每一个值为0
每轮假设机器人从state 8开始采取动作到下一个状态。当机器人选择向上走(up)时,有(1-noise)的可能到达state 4,也有一定可能到达state 9或原地不动(除开边界和有障碍的情况)。从开始到结束机器人决定是否探索或者采用当前策略,显然不探索就无法确保得到了最优的策略,不采取??前策略这很有可能在无用的尝试上浪费大量的时间
2.2 实验数据
2.2.1 将参数设置为
与epsilon=0相比这种情况更理想,因为这种情况保证至少每种state能够被探索一遍。所以这种情况的Q值更为合理有更快的收敛速度。但这不是最理想的情况,因为机器人有可能采取同样的动作会浪费大量时间去计算Q值
3 总结
让探索更加有效率而非重复相同的动作,采用了一个探索函数提高效率。实现这个函数需建立一个数组记录到达每个状态的次数,当计算值时需要用有效状态的访问次数。访问的次数越少,探索的奖励就越高
Noise因素,若程序中没有Noise因素(noise=0),Q值则会很快收敛,当noise的值增加,Q值则会不稳定。对于Alpha (α) 和折扣因子Gamma(γ),这两个参数的值不宜太小。因为Alpha的值越小,Q值收敛的速度越慢。一般来说,Alpha因素的值应该在整个过程中是改变的。对于折扣因子(γ),用来判断即刻反馈和未来反馈哪一个更重要。γ=1表示未来反馈和即刻反馈同样重要,γ=0表示只考虑即刻反馈的因素。因此,γ因子也需要根据不同的场景进行改变
参考文献
[1]Richard S.Sutton Andrew G.Barto.Reinforcement Learning:An introduction[M].Massachusetts:MIT Press,1998:12-16.
[2]Tom M.Mitchell. Machine Learning:A Guide to Current Research[M].Germany: Springer,1986:265-278.
作者简介
孙灿宇(1995-),男,重庆市人。现为四川大学软件学院软件工程系本科在读。主要研究方向为软件工程
作者单位
四川大学软件学院软件工程系 四川省成都市 610207
1
您可能关注的文档
最近下载
- 3万吨全粉5万吨法式薯条加工项目可行性研究报告编制格式说明(模板型word).pdf VIP
- 初中物理竞赛试题精选精编第16讲电与磁(含答案与解析).docx VIP
- 第6章 机械振动-改 h(实际4h).ppt
- 2023-2024全国初中物理竞赛试题精选精编第16讲电与磁(解析版).doc VIP
- 2025年全国中小学校党组织书记网络培训示范班在线考试题库及答案.docx VIP
- 中国共产党统一战线工作条例学习PPT课件.pptx VIP
- 前程无忧国企入职题库.pdf VIP
- QCT29106-2004线束标准详细介绍.pdf VIP
- 钠离子电池正极材料的发展与产业化研究.pdf
- 进度控制监理细则.doc VIP
文档评论(0)