《机器学习与Python实践》课件_13-强化学习.pptx

下载文档

0
0
约1.13千字
约 95页
2025-02-14 发布于广东
举报
版权申诉
保障服务

《机器学习与Python实践》课件_13-强化学习.pptx

1、本文档共95页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

强化学习课程大纲;课程大纲-强化学习基础;两种人工智能任务类型;决策和预测的不同;序列决策(SequentialDecisionMaking)

;强化学习定义;强化学习交互过程;在与动态环境的交互中学习;课程大纲-强化学习基础;随机过程;随机过程;马尔可夫过程;马尔可夫决策过程;MDP五元组;MDP的动态性;MDP的动态性;REVIEW:在与动态环境的交互中学习;和动态环境交互产生的数据分布;占用度量和策略;占用度量和策略;占用度量和累计奖励;课程大纲-强化学习基础;MDP中智能体的目标和策略;价值函数的Bellman等式;最优价值函数;价值迭代和策略迭代;价值迭代;价值迭代例子：最短路径;策略迭代;策略迭代;举例：策略评估;举例：策略评估;举例：策略评估;价值迭代vs.策略迭代;课程大纲-强化学习基础;模型无关的强化学习;值函数估计;蒙特卡罗方法;蒙特卡罗方法;蒙特卡罗价值估计;蒙特卡罗价值估计;增量蒙特卡罗更新;时序差分学习;蒙特卡罗vs.时序差分（MCvs.TD);驾车回家的例子;驾车回家的例子（MCvs.TD);蒙特卡罗（MC）和时序差分（TD）的优缺点;蒙特卡罗（MC）和时序差分（TD）的优缺点（2）;随机游走的例子;随机游走的例子;蒙特卡罗的值更新;时序差分的值更新;动态规划的值更新;课程大纲-强化学习基础;动作值函数Q;SARSA;使用SARSA的在线策略控制;SARSA算法;SARSA示例：WindyGridworld;SARSA示例：WindyGridworld;Q学习;离线策略学习;Q学习;使用Q学习的离线策略控制;Q学习控制算法;Q学习控制算法;SARSA与Q学习对比实验;课程大纲-强化学习基础;参数化值函数近似;基于随机梯度下降（SGD）的值函数近似;特征化状态;线性状态值函数近似;蒙特卡罗状态值函数近似;时序差分状态值函数近似;状态-动作值函数近似;线性状态-动作值函数近似;时序差分状态-动作值函数近似;时序差分状态-动作值函数近似;时序差分学习参数更新过程;课程大纲-强化学习基础;参数化策略;基于策略的强化学习;策略梯度;单步马尔可夫决策过程中的策略梯度;似然比(LikelihoodRatio);策略梯度定理;蒙特卡罗策略梯度（REINFORCE）;蒙特卡罗策略梯度（REINFORCE）;PuckWorld冰球世界示例;REINFORCE存在的问题;Actor-Critic;Actor-Critic训练;A2C：AdvantageousActor-Critic;A2C：AdvantageousActor-Critic;本课总结：强化学习基础