本科毕业论文_基于强化学习的gambler策略研究与评价论文正文.docVIP

  • 3
  • 0
  • 约2.84万字
  • 约 39页
  • 2016-12-12 发布于辽宁
  • 举报

本科毕业论文_基于强化学习的gambler策略研究与评价论文正文.doc

本科毕业设计(论文) 学院(部) 计算机科学与技术学院 题目 基于强化学习的Gambler策略研究与评价 年级 专业 软件工程(嵌入式) 班级 学号 姓名 指导教师 职称 论文提交日期 目 录 摘 要 1 ABSTRACT 2 第一章 前 言 3 1.1背景概述 3 1.2 强化学习的应用 3 1.3 论文结构安排 4 第二章 强化学习 5 2.1 强化学习的原理和模型 5 2.2 强化学习系统的主要组成要素 6 2.3 马尔可夫决策过程 (MDP) 7 2.4 强化学习的基本算法 8 2.4.1 动态规划(Dynamic Programming, DP) 8 2.4.2 蒙特卡罗算法 (Monte Carlo method, MC) 9 2.5 强化学习中有待解决的问题 9 2.6 本章小结 9 第三章 动态规划分析 10 3.1 动态规划的适用条件 10 3.1.1最优化原理 10 3.1.2无后向性 10 3.1.3子问题的重叠性 10 3.2 算法流程 11 3.2.1策略评估 11 3.2.2策略改进 11 3.3 寻找最优策略 12 3.3.1策略迭代 12 3.3.2值迭代 12 3.4 动态规划的效率 13 3.5 本章小结 13 第四章 实验平台分析与实现 14 4.1 实验平台描述 14

文档评论(0)

1亿VIP精品文档

相关文档