人工智能--西洋双陆棋.pdf

下载文档 降价啦

35
0
约1.2万字
约 14页
2017-10-06 发布于湖北
举报
版权申诉
保障服务

人工智能--西洋双陆棋.pdf

1、本文档共14页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

人工智能--西洋双陆棋

TD算法——西洋双陆棋题目： TD （λ）算法与西洋双陆棋学号： 2220150496 姓名：陈帅一、预备知识 1、西洋双陆棋西洋双陆棋是一种在棋盘或桌子上走棋的游戏，靠掷两枚骰子决定走棋的步数，比赛的目的是要使自己的棋子先到达终点。这种棋戏把运气和技术结合在一起，通常两者对取胜都不可缺少。西洋双陆棋供两人玩。棋盘分为4部分，或称4大区，如图1所示。每部分用两种颜色交替标出6个楔形狭长区或小据点。有一条称作边界的垂直线把棋盘分成内区和外区。比赛时一方使用15枚白棋子，另一方使用15枚黑棋子。双方根据其所投骰子上显示的点数，从各自的内区(亦称本区)向相反方向从一个据点到另一个据点移动自己的棋子。两枚骰子显示的点数可分别用来移动两枚棋子，也可以把它们加起来去移动一枚棋子。出现对麼(骰子显示两个相同的数字)时，加倍计算；例如两个6点应按4个6点计算。图1 西洋双陆棋起始状态 1 2、强化学习图2 强化学习模型图强化学习是从动物学习、参数扰动自适应控制等理论发展而来，其基本模型图如图2所示，其基本原理是：如果Agent 的某个行为策略导致环境正的奖励(强化信号)，那么Agent 以后产生这个行为策略的趋势便会加强。Agent 的目标是在每个离散状态发现最优策略以使期望的折扣奖赏和最大。强化学习把学习看作试探评价过程，Agent选择一个动作用于环境，环境接受该动作后状态发生变化，同时产生一个强化信号(奖或惩)反馈给Agent，Agent 根据强化信号和环境当前状态再选择下一个动作，选择的原则是使受到正强化 (奖)的概率增大。选择的动作不仅影响立即强化值，而且影响环境下一时刻的状态及最终的强化值。强化学习不同于连接主义学习中的监督学习，主要表现在教师信号上，强化学习中由环境提供的强化信号是Agent对所产生动作的好坏作一种评价(通常为标量信号)，而不是告诉Agent如何去产生正确的动作。由于外部环境提供了很少的信息，Agent必须靠自身的经历进行学习。通过这种方式，Agent在行动一一评价的环境中获得知识，改进行动方案以适应环境。强化学习系统学习的目标是动态地调整参数，以达到强化信号最大。若已知 r/A梯度信息，则可直接可以使用监督学习算法。因为强化信号r与Agent产生的动作A没有明确的函数形式描述，所以梯度信息r/A无法得到。因此，在强化学习系统中，需要某种随机单元，使用这种随机单元，Agent在可能动作空间中进行搜索并发现正确的动作。 2 二、论文学习摘要：本文讨论了时间差分方法，如：Sutton的TD(λ)算法，是否可以用于训练连接主义网络，并且成功地应用解决实际问题。论文从理论角度讨论定义了一系列重要的现实问题，这些问题用于检查下文的研究——TD(λ)算法用于学习西洋双陆棋自我对弈的游戏。本文是第一个将这个算法用于解决复杂问题的。研究发现，网络能够从初始混乱的状态进行学习，进而能够以一个相当强大的中级水平玩家玩西洋双陆棋。其表现超过了大量专家用数据集训练的网络。这些事实表明，TD强化学习算法在解决实际问题的性能可能优于基于现有理论的方法，因此，强化学习的研究可能用于其他复杂领域。 1、引言第一部分，主要介绍了机器学习中的 “延迟强化”、 “时间差分”方法和 TD(λ)算法。其中TD(λ)算法的主要公式为： t tk   (P P)   P t t1 t  k