网站大量收购独家精品文档,联系QQ:2885784924

人工智能--西洋双陆棋.pdf

  1. 1、本文档共14页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
人工智能--西洋双陆棋

TD算法——西洋双陆棋 题目: TD (λ)算法与西洋双陆棋 学 号: 2220150496 姓 名: 陈帅 一、预备知识 1、西洋双陆棋 西洋双陆棋是一种在棋盘或桌子上走棋的游戏,靠掷两枚骰子决定走棋的步 数,比赛的目的是要使自己的棋子先到达终点。这种棋戏把运气和技术结合在一 起,通常两者对取胜都不可缺少。 西洋双陆棋供两人玩。棋盘分为4部分,或称4大区,如图1所示。每部分 用两种颜色交替标出6个楔形狭长区或小据点。有一条称作边界的垂直线把棋盘 分成内区和外区。比赛时一方使用15枚白棋子,另一方使用15枚黑棋子。双方 根据其所投骰子上显示的点数,从各自的内区(亦称本区)向相反方向从一个据点 到另一个据点移动自己的棋子。两枚骰子显示的点数可分别用来移动两枚棋子, 也可以把它们加起来去移动一枚棋子。出现对麼(骰子显示两个相同的数字)时, 加倍计算;例如两个6点应按4个6点计算。 图1 西洋双陆棋起始状态 1 2、强化学习 图2 强化学习模型图 强化学习是从动物学习、参数扰动自适应控制等理论发展而来,其基本模型 图如图2所示,其基本原理是: 如果Agent 的某个行为策略导致环境正的奖励(强化信号),那么Agent 以后 产生这个行为策略的趋势便会加强。Agent 的目标是在每个离散状态发现最优策 略以使期望的折扣奖赏和最大。 强化学习把学习看作试探评价过程,Agent选择一个动作用于环境,环境接 受该动作后状态发生变化,同时产生一个强化信号(奖或惩)反馈给Agent,Agent 根据强化信号和环境当前状态再选择下一个动作,选择的原则是使受到正强化 (奖)的概率增大。选择的动作不仅影响立即强化值,而且影响环境下一时刻的状 态及最终的强化值。 强化学习不同于连接主义学习中的监督学习,主要表现在教师信号上,强化 学习中由环境提供的强化信号是Agent对所产生动作的好坏作一种评价(通常为 标量信号),而不是告诉Agent如何去产生正确的动作。由于外部环境提供了很 少的信息,Agent必须靠自身的经历进行学习。通过这种方式,Agent在行动一 一评价的环境中获得知识,改进行动方案以适应环境。 强化学习系统学习的目标是动态地调整参数,以达到强化信号最大。若已知 r/A梯度信息,则可直接可以使用监督学习算法。因为强化信号r与Agent产生 的动作A没有明确的函数形式描述,所以梯度信息r/A无法得到。因此,在强化 学习系统中,需要某种随机单元,使用这种随机单元,Agent在可能动作空间中 进行搜索并发现正确的动作。 2 二、论文学习 摘要:本文讨论了时间差分方法,如:Sutton的TD(λ)算法,是否可以用于 训练连接主义网络,并且成功地应用解决实际问题。论文从理论角度讨论定义了 一系列重要的现实问题,这些问题用于检查下文的研究——TD(λ)算法用于学习 西洋双陆棋自我对弈的游戏。本文是第一个将这个算法用于解决复杂问题的。研 究发现,网络能够从初始混乱的状态进行学习,进而能够以一个相当强大的中级 水平玩家玩西洋双陆棋。其表现超过了大量专家用数据集训练的网络。这些事实 表明,TD强化学习算法在解决实际问题的性能可能优于基于现有理论的方法, 因此,强化学习的研究可能用于其他复杂领域。 1、引言 第一部分,主要介绍了机器学习中的 “延迟强化”、 “时间差分”方法和 TD(λ)算法。其中TD(λ)算法的主要公式为: t tk   (P P)   P t t1 t  k

文档评论(0)

dajuhyy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档