基于强化学习的Gambler策略研究与评价毕业设计论文 苏州大学.docVIP

  • 3
  • 0
  • 约2.62万字
  • 约 41页
  • 2018-05-04 发布于河北
  • 举报

基于强化学习的Gambler策略研究与评价毕业设计论文 苏州大学.doc

基于强化学习的Gambler策略研究与评价毕业设计论文 苏州大学

本科毕业设计(论文) 目 录 摘 要 1 ABSTRACT 2 第一章 前 言 3 1.1背景概述 3 1.2 强化学习的应用 3 1.3 论文结构安排 4 第二章 强化学习 5 2.1 强化学习的原理和模型 5 2.2 强化学习系统的主要组成要素 6 2.3 马尔可夫决策过程 (MDP) 7 2.4 强化学习的基本算法 8 2.4.1 动态规划(Dynamic Programming, DP) 8 2.4.2 蒙特卡罗算法 (Monte Carlo method, MC) 9 2.5 强化学习中有待解决的问题 9 2.6 本章小结 9 第三章 动态规划分析 10 3.1 动态规划的适用条件 10 3.1.1最优化原理 10 3.1.2无后向性 10 3.1.3子问题的重叠性 10 3.2 算法流程 11 3.2.1策略评估 11 3.2.2策略改进 11 3.3 寻找最优策略 12 3.3.1策略迭代 12 3.3.2值迭代 12 3.4 动态规划的效率 13 3.5 本章小结 13 第四章 实验平台分析与实现 14 4.1 实验平台描述 14 4.1.1系统概述 14 4.1.2系统运行环境 14 4.2 Gambler问题仿真 14 4.3 实验平台概要设计 15 4.3.1底层框架模型 15 4.3.2 Gambler问题模型 17 4.3.3界面设计

文档评论(0)

1亿VIP精品文档

相关文档