本科毕业论文_基于强化学习的gambler策略研究与评价论文正文.docVIP

下载本文档

3
0
约2.84万字
约 39页
2016-12-12 发布于辽宁
举报

本科毕业论文_基于强化学习的gambler策略研究与评价论文正文.doc

本科毕业设计(论文) 学院(部) 计算机科学与技术学院题目基于强化学习的Gambler策略研究与评价年级专业软件工程（嵌入式）班级学号姓名指导教师职称论文提交日期目录摘要 1 ABSTRACT 2 第一章前言 3 1.1背景概述 3 1.2 强化学习的应用 3 1.3 论文结构安排 4 第二章强化学习 5 2.1 强化学习的原理和模型 5 2.2 强化学习系统的主要组成要素 6 2.3 马尔可夫决策过程 (MDP) 7 2.4 强化学习的基本算法 8 2.4.1 动态规划(Dynamic Programming, DP) 8 2.4.2 蒙特卡罗算法 (Monte Carlo method, MC) 9 2.5 强化学习中有待解决的问题 9 2.6 本章小结 9 第三章动态规划分析 10 3.1 动态规划的适用条件 10 3.1.1最优化原理 10 3.1.2无后向性 10 3.1.3子问题的重叠性 10 3.2 算法流程 11 3.2.1策略评估 11 3.2.2策略改进 11 3.3 寻找最优策略 12 3.3.1策略迭代 12 3.3.2值迭代 12 3.4 动态规划的效率 13 3.5 本章小结 13 第四章实验平台分析与实现 14 4.1 实验平台描述 14

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

本科毕业论文_基于强化学习的gambler策略研究与评价论文正文.docVIP