强化学习课件第4章基于价值的强化学习.pptx

下载文档

0
0
约2.7千字
约 50页
2024-05-12 发布于山东
举报
版权申诉
保障服务

强化学习课件第4章基于价值的强化学习.pptx

1、本文档共50页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第四章基于价值的强化学习北京大学余欣航

目录状态-动作价值函数SarsaQ-learningDQN

状态-动作价值函数

环境已知的MDP问题?????

环境未知的MDP问题?

与环境交互?

如何学习?

时间差分学习(Temporal-Differencelearning)??

状态-动作价值函数的引入?

状态-动作价值函数?

Sarsa

Sarsa?估计作为目标值预测值

Q表（Q-table）?…-2102-1101-1……Q表

Sarsa算法流程?

Sarsa举例?

Step1：初始化Q表上下左右开始0000一个香蕉0000空区域0000两个香蕉0000炸弹区域0000三个香蕉0000?Q表

???上下左右开始0000.1一个香蕉0000空区域0000两个香蕉0000炸弹区域0000三个香蕉0000Q表

Step5：利用Q表求出最佳策略上下左右开始-11.5-12一个香蕉-1-301空区域-130-1两个香蕉0-1-1-3炸弹区域0000三个香蕉0000Q表中状态??所在行的最大值所对应的动作??即为当前状态下的最佳策略Q表

n-stepSarsa??

Q-learning

Q-learning?目标值预测值

Q-learning算法流程?

Q-learning举例?

Step1：初始化Q表上下左右开始0000一个香蕉0000空区域0000两个香蕉0000炸弹区域0000三个香蕉0000?Q表

Step2：状态??下选择动作???

???上下左右开始0000.1一个香蕉0000空区域0000两个香蕉0000炸弹区域0000三个香蕉0000Q表

Step4：利用Q表求出最佳策略上下左右开始-11.5-12一个香蕉-1-301空区域-130-1两个香蕉0-1-1-3炸弹区域0000三个香蕉0000?Q表

Q-learning与SarsaSarsa和Q-learning是两种常用的无模型强化学习算法两种算法均基于Q表，适合状态和动作离散的问题Sarsa中从环境产生数据的策略和更新Q值的策略相同(on-policy)；Q-learning中从环境产生数据的策略和更新Q值策略不同(off-policy)Q-learning通常收敛更快，实际中更常用

悬崖寻路问题目标是从起点移动到终点可以采取上、下、左、右四种动作进行移动到达除悬崖以外的方格奖励为-1到达悬崖奖励为-100并返回起点离开方格的动作会保持当前状态不动并奖励-1

悬崖寻路问题：Q-learning和Sarsa的表现Q-leaning：沿着最短路径进行Q值的学习，容易进入悬崖，导致每次迭代的累积奖励较少迭代速度较快Sarsa：沿着较长但安全的路径进行Q值的学习，每次迭代的累积奖励较多迭代速度较慢Q-learningSarsa

DQN

Q表的局限性在Q-learning和Sarsa中，状态和动作离散，使用Q表来保存Q值当状态或动作数量很大或者为连续值时，使用Q表不再有效吃豆人马里奥兄弟?

值函数近似?Q表值函数近似?Q-table

DeepQNetwork一种结合了深度学习和Q-learning的强化学习算法适合状态数量很大，动作数量较少的问题，例如Atari游戏使用深度神经网络近似Q值MnihV,KavukcuogluK,SilverD,etal.Playingatariwithdeepreinforcementlearning[J].arXivpreprintarXiv:1312.5602,2013.

DeepQNetwork?

如何训练?

DQN算法流程?

DQN的改进使用神经网络近似Q值时，强化学习过程并不稳定甚至会发散，主要原因有：数据存在一定相关性数据非平稳分布目标Q值和预测Q值存在参数联系针对上述问题，后续学者对DQN做出了一些改进：经验回放（experiencereplay）：应对数据相关性和非平稳分布问题目标网络（targetnetwork）：引入新网络计算目标Q值，减轻与预测Q值的参数联系MnihV,KavukcuogluK,SilverD,etal.Human-levelcontrolthroughdeepreinforcementlearning[J].Nature,2015,518(7540):529.

经验回放样本缓存区（replaybuffer）：与环境交互时，将产生的数据存储在缓存区中均匀地随机采样一批数据提供给神经网络进行训练若缓存区数据已满，用新数据覆盖最旧的数据

带经验回放的DQN算法流程?

目标网络目标Q值和预测Q值之间存在参数联系，每次更新的目标都是固定上次更新的参数得来的，优化目标跟着优化过程一直在变，迭代难以收敛：引入一个与

您可能关注的文档

文档评论（0）

balala11 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

强化学习课件第4章基于价值的强化学习.pptx