- 3
- 0
- 约2.84万字
- 约 39页
- 2016-12-12 发布于辽宁
- 举报
本科毕业设计(论文)
学院(部) 计算机科学与技术学院 题目 基于强化学习的Gambler策略研究与评价 年级 专业 软件工程(嵌入式) 班级 学号 姓名 指导教师 职称 论文提交日期
目 录
摘 要 1
ABSTRACT 2
第一章 前 言 3
1.1背景概述 3
1.2 强化学习的应用 3
1.3 论文结构安排 4
第二章 强化学习 5
2.1 强化学习的原理和模型 5
2.2 强化学习系统的主要组成要素 6
2.3 马尔可夫决策过程 (MDP) 7
2.4 强化学习的基本算法 8
2.4.1 动态规划(Dynamic Programming, DP) 8
2.4.2 蒙特卡罗算法 (Monte Carlo method, MC) 9
2.5 强化学习中有待解决的问题 9
2.6 本章小结 9
第三章 动态规划分析 10
3.1 动态规划的适用条件 10
3.1.1最优化原理 10
3.1.2无后向性 10
3.1.3子问题的重叠性 10
3.2 算法流程 11
3.2.1策略评估 11
3.2.2策略改进 11
3.3 寻找最优策略 12
3.3.1策略迭代 12
3.3.2值迭代 12
3.4 动态规划的效率 13
3.5 本章小结 13
第四章 实验平台分析与实现 14
4.1 实验平台描述 14
您可能关注的文档
- 本科毕业论文_基于机器学习的英汉字典模糊查询论文正文.doc
- 本科毕业论文_基于机器学习的英汉字典模糊查询正文.doc
- 本科毕业论文_基于环形转盘发泡生产线的控制系统设计.doc
- 本科毕业论文_基于蓝牙的无线数据传输系统研究.doc
- 本科毕业论文_基于某生产线碱洗工序的西门子plc自动化设计.doc
- 本科毕业论文_基于平衡计分卡的税务部门绩效评价探析正文.doc
- 本科毕业论文_基于气动人工肌肉驱动的多关节机械手指动力学仿真.doc
- 本科毕业论文_基于人才搜索的博客系统设计与实现.doc
- 本科毕业论文_基于三菱plc的水泥厂窑头喂煤系统设计.doc
- 本科毕业论文_基于时间序列在粮食产量中的方法研究.doc
原创力文档

文档评论(0)