网站大量收购独家精品文档,联系QQ:2885784924

《机器学习与Python实践》课件_13-强化学习.pptx

《机器学习与Python实践》课件_13-强化学习.pptx

  1. 1、本文档共95页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

强化学习课程大纲;课程大纲-强化学习基础;两种人工智能任务类型;决策和预测的不同;序列决策(SequentialDecisionMaking)

;强化学习定义;强化学习交互过程;在与动态环境的交互中学习;课程大纲-强化学习基础;随机过程;随机过程;马尔可夫过程;马尔可夫决策过程;MDP五元组;MDP的动态性;MDP的动态性;REVIEW:在与动态环境的交互中学习;和动态环境交互产生的数据分布;占用度量和策略;占用度量和策略;占用度量和累计奖励;课程大纲-强化学习基础;MDP中智能体的目标和策略;价值函数的Bellman等式;最优价值函数;价值迭代和策略迭代;价值迭代;价值迭代例子:最短路径;策略迭代;策略迭代;举例:策略评估;举例:策略评估;举例:策略评估;价值迭代vs.策略迭代;课程大纲-强化学习基础;模型无关的强化学习;值函数估计;蒙特卡罗方法;蒙特卡罗方法;蒙特卡罗价值估计;蒙特卡罗价值估计;增量蒙特卡罗更新;时序差分学习;蒙特卡罗vs.时序差分(MCvs.TD);驾车回家的例子;驾车回家的例子(MCvs.TD);蒙特卡罗(MC)和时序差分(TD)的优缺点;蒙特卡罗(MC)和时序差分(TD)的优缺点(2);随机游走的例子;随机游走的例子;蒙特卡罗的值更新;时序差分的值更新;动态规划的值更新;课程大纲-强化学习基础;动作值函数Q;SARSA;使用SARSA的在线策略控制;SARSA算法;SARSA示例:WindyGridworld;SARSA示例:WindyGridworld;Q学习;离线策略学习;Q学习;使用Q学习的离线策略控制;Q学习控制算法;Q学习控制算法;SARSA与Q学习对比实验;课程大纲-强化学习基础;参数化值函数近似;基于随机梯度下降(SGD)的值函数近似;特征化状态;线性状态值函数近似;蒙特卡罗状态值函数近似;时序差分状态值函数近似;状态-动作值函数近似;线性状态-动作值函数近似;时序差分状态-动作值函数近似;时序差分状态-动作值函数近似;时序差分学习参数更新过程;课程大纲-强化学习基础;参数化策略;基于策略的强化学习;策略梯度;单步马尔可夫决策过程中的策略梯度;似然比(LikelihoodRatio);策略梯度定理;蒙特卡罗策略梯度(REINFORCE);蒙特卡罗策略梯度(REINFORCE);PuckWorld冰球世界示例;REINFORCE存在的问题;Actor-Critic;Actor-Critic训练;A2C:AdvantageousActor-Critic;A2C:AdvantageousActor-Critic;本课总结:强化学习基础

文档评论(0)

酱酱 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档