强化学习：原理与实践入门指南.docxVIP

强化学习：原理与实践入门指南.docx

强化学习：原理与实践入门指南

文档概要．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．2

基础概念．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．2

标准马尔可夫决策过程．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．3

3.1马尔可夫决策过程的模型．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．4

3.2决策过程分析．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．5

3.3策略改进与迭代求解．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．7

基于价值的方法．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．12

4.1提高效率的价值迭代方法．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．12

4.2离散状态空间的Q学习．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．15

4.3离散状态空间的SARSA算法．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．18

完全离线学习的方法．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．20