- 0
- 0
- 约2.77万字
- 约 59页
- 2026-06-26 发布于广东
- 举报
强化学习:原理与实践入门指南
目录
文档概要................................................2
基础概念................................................2
标准马尔可夫决策过程....................................3
3.1马尔可夫决策过程的模型.................................4
3.2决策过程分析...........................................5
3.3策略改进与迭代求解.....................................7
基于价值的方法.........................................12
4.1提高效率的价值迭代方法................................12
4.2离散状态空间的Q学习...................................15
4.3离散状态空间的SARSA算法...............................18
完全离线学习的方法.....................................20
5.1基于估计策略的离线强化
原创力文档

文档评论(0)