- 3
- 0
- 约2.62万字
- 约 41页
- 2018-05-04 发布于河北
- 举报
基于强化学习的Gambler策略研究与评价毕业设计论文 苏州大学
本科毕业设计(论文)
目 录
摘 要 1
ABSTRACT 2
第一章 前 言 3
1.1背景概述 3
1.2 强化学习的应用 3
1.3 论文结构安排 4
第二章 强化学习 5
2.1 强化学习的原理和模型 5
2.2 强化学习系统的主要组成要素 6
2.3 马尔可夫决策过程 (MDP) 7
2.4 强化学习的基本算法 8
2.4.1 动态规划(Dynamic Programming, DP) 8
2.4.2 蒙特卡罗算法 (Monte Carlo method, MC) 9
2.5 强化学习中有待解决的问题 9
2.6 本章小结 9
第三章 动态规划分析 10
3.1 动态规划的适用条件 10
3.1.1最优化原理 10
3.1.2无后向性 10
3.1.3子问题的重叠性 10
3.2 算法流程 11
3.2.1策略评估 11
3.2.2策略改进 11
3.3 寻找最优策略 12
3.3.1策略迭代 12
3.3.2值迭代 12
3.4 动态规划的效率 13
3.5 本章小结 13
第四章 实验平台分析与实现 14
4.1 实验平台描述 14
4.1.1系统概述 14
4.1.2系统运行环境 14
4.2 Gambler问题仿真 14
4.3 实验平台概要设计 15
4.3.1底层框架模型 15
4.3.2 Gambler问题模型 17
4.3.3界面设计
您可能关注的文档
最近下载
- 22G101钢筋三维图集详解.pptx
- 20100915老爷庙煤矿项目成本分析.doc VIP
- 22g101-3基础顶板受力筋计算.pdf VIP
- 13《董存瑞舍身炸暗堡》课件(共41张PPT).pptx VIP
- 22G101系列结构图集解读.pptx
- 毕业设计(论文)--壳体零件的加工工艺及夹具设计.doc VIP
- 22G101平法识图与钢筋计算3.pptx VIP
- 12广西2025年高等职业教育考试全区模拟测试 食品药品与粮食 大类试题及逐题答案解说.pdf VIP
- 22G101-1与16G101-1图集新增变化.pptx VIP
- GE iFIX:iFIX报表系统设计与实现.Tex.header.docx VIP
原创力文档

文档评论(0)