- 1、本文档共17页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
强化学习入门第二讲
郭宪
尺
机器人与信息自动化研究所
有大粤
ankai University
一周工作损告
南开大学机人与信息自动化研完所
强化学习的形式化
机器人〈观新
策略:π:S→u。常采用随机策略:π(uls)
的状
累积回报:R()=r(x)+)r(x,a)
折扣回报
值函数
环境
状态转移概率P(S+1s.a)
强化学习目标:max‖r(r)pn(r)d
最优策略:r:s→u
马尔科夫决策问题(p:四元组(SAPr)s
序贯决策问题
Nankai University
强化学习方法分类
序贯决策问题
马尔科夫决策过程MDP(APRy)
(S, A, P,R,y)
(S, A, P? R? Y?)
基于模型的动态规划方法
无模型的强化学习方法
策略迭代
略搜索
策略迭代
本节讲基于模型的策略迭代算法和值迭代算法
Nankai University
动态规划
动态规划是一类算法:包括离散和连续。马尔科夫决策过程(mP),贝尔曼最
动态:蕴含着序列决策
优性原理,得到贝尔曼最优化方程
规划:蕴含着优化,如线性优化,二次优化
或者非线性优化。
(s)=maxg+y)pgu、
尺
动态规划可以解决的问题
a'(S, a)=Rg+r) Pe, maxa'q'(s', a'?
1.整个优化问题可以分解成多个子优化问题
动态规划可以解决MP的问题
2.子优化问题的解可以被存储和重复利用
核心:动态规划通过值函数来迭代
构造最优解
Nankai University
策略评估( policy evaluation
给定策略π构造值函数
r(als)gr(s, a)
Ur(S)
4(s, a)=Rg+y)Psg, "n(s")
尺
n(s)←s10
模型已知,方程组中只有值函数是未知数,方程
组是线性方程组。未知数的数目等于状态的数目
采用数值迭代算法
Nankai University
Institute of Robotics and Automatic Information
1亿VIP精品文档
相关文档
最近下载
- 50MWp光伏电站项目施工总进度计划.doc
- 第六单元+资本主义制度的初步确立(课件)-【核心素养新教学】2023-2024学年九年级历史上学期期中期末大单元复习课件+学案+单元测试(部编版).pptx VIP
- 【施工】施工进度计划及保证措施.doc
- 经济纠纷起诉状范本WORD范本可编辑.pdf VIP
- 第9课改变世界的工业革命课件--2023-2024学年中职高一下学期高教版(2023)世界历史全一册.pptx
- 方正飞腾排版软件教程.pdf
- 工期风险管理机制.docx VIP
- 2023年中考物理复习《浮力计算模型》.pdf VIP
- ONKYO安桥功放TX-NR5009产品手册.pdf VIP
- 中国石油视觉形象手册应用设计系统-5(工装)2021版.pdf
文档评论(0)