- 1、本文档共14页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
人工智能--西洋双陆棋
TD算法——西洋双陆棋
题目: TD (λ)算法与西洋双陆棋
学 号: 2220150496
姓 名: 陈帅
一、预备知识
1、西洋双陆棋
西洋双陆棋是一种在棋盘或桌子上走棋的游戏,靠掷两枚骰子决定走棋的步
数,比赛的目的是要使自己的棋子先到达终点。这种棋戏把运气和技术结合在一
起,通常两者对取胜都不可缺少。
西洋双陆棋供两人玩。棋盘分为4部分,或称4大区,如图1所示。每部分
用两种颜色交替标出6个楔形狭长区或小据点。有一条称作边界的垂直线把棋盘
分成内区和外区。比赛时一方使用15枚白棋子,另一方使用15枚黑棋子。双方
根据其所投骰子上显示的点数,从各自的内区(亦称本区)向相反方向从一个据点
到另一个据点移动自己的棋子。两枚骰子显示的点数可分别用来移动两枚棋子,
也可以把它们加起来去移动一枚棋子。出现对麼(骰子显示两个相同的数字)时,
加倍计算;例如两个6点应按4个6点计算。
图1 西洋双陆棋起始状态
1
2、强化学习
图2 强化学习模型图
强化学习是从动物学习、参数扰动自适应控制等理论发展而来,其基本模型
图如图2所示,其基本原理是:
如果Agent 的某个行为策略导致环境正的奖励(强化信号),那么Agent 以后
产生这个行为策略的趋势便会加强。Agent 的目标是在每个离散状态发现最优策
略以使期望的折扣奖赏和最大。
强化学习把学习看作试探评价过程,Agent选择一个动作用于环境,环境接
受该动作后状态发生变化,同时产生一个强化信号(奖或惩)反馈给Agent,Agent
根据强化信号和环境当前状态再选择下一个动作,选择的原则是使受到正强化
(奖)的概率增大。选择的动作不仅影响立即强化值,而且影响环境下一时刻的状
态及最终的强化值。
强化学习不同于连接主义学习中的监督学习,主要表现在教师信号上,强化
学习中由环境提供的强化信号是Agent对所产生动作的好坏作一种评价(通常为
标量信号),而不是告诉Agent如何去产生正确的动作。由于外部环境提供了很
少的信息,Agent必须靠自身的经历进行学习。通过这种方式,Agent在行动一
一评价的环境中获得知识,改进行动方案以适应环境。
强化学习系统学习的目标是动态地调整参数,以达到强化信号最大。若已知
r/A梯度信息,则可直接可以使用监督学习算法。因为强化信号r与Agent产生
的动作A没有明确的函数形式描述,所以梯度信息r/A无法得到。因此,在强化
学习系统中,需要某种随机单元,使用这种随机单元,Agent在可能动作空间中
进行搜索并发现正确的动作。
2
二、论文学习
摘要:本文讨论了时间差分方法,如:Sutton的TD(λ)算法,是否可以用于
训练连接主义网络,并且成功地应用解决实际问题。论文从理论角度讨论定义了
一系列重要的现实问题,这些问题用于检查下文的研究——TD(λ)算法用于学习
西洋双陆棋自我对弈的游戏。本文是第一个将这个算法用于解决复杂问题的。研
究发现,网络能够从初始混乱的状态进行学习,进而能够以一个相当强大的中级
水平玩家玩西洋双陆棋。其表现超过了大量专家用数据集训练的网络。这些事实
表明,TD强化学习算法在解决实际问题的性能可能优于基于现有理论的方法,
因此,强化学习的研究可能用于其他复杂领域。
1、引言
第一部分,主要介绍了机器学习中的 “延迟强化”、 “时间差分”方法和
TD(λ)算法。其中TD(λ)算法的主要公式为:
t tk
(P P) P
t t1 t k
您可能关注的文档
- 井间电磁油气储层监测技术的发展.pdf
- 交易银行如何转型.pdf
- 亚泰设备状态监测方案--设备磨损检测分析.pdf
- 交流电力测功机(内燃机试验使用).pdf
- 交流电机系统分析第0部分.pdf
- 交流充电接口-WTS2014-6226.pdf
- 亚龙YL-209型说明书(学生用)09.9.pdf
- 交河故城形制布局特点研究_孟凡人.pdf
- 交通工具意外保险条款.pdf
- 交通拥堵收费的理论依据和政策分析_徐曌.pdf
- 2024-2025学年人教版小学数学四年级下册教学计划及进度表.docx
- 2024-2025学年北师大版小学数学二年级下册教学计划及进度表.docx
- 2024-2025学年人教版小学数学五年级下册教学计划及进度表.docx
- 2024-2025学年人教大同版(2024)小学英语三年级下册教学计划.docx
- 2024-2025学年人教精通版(三起)(2024)小学英语三年级下册教学计划.docx
- 2024-2025学年统编版初中道德与法治八年级下册教学计划及进度表.docx
- 2024-2025学年统编版(2024)初中道德与法治七年级下册教学计划及进度表.docx
- 2023-2024学年上海黄埔区中考二模综合测试(物理部分)试卷及答案.pdf
- 2024-2025学年外研版(三起)(2024)小学英语三年级下册教学计划及进度表.docx
- 2025届北京市北京第四中学高三冲刺模拟数学试卷含解析.doc
最近下载
- 统编版(新教材)一年级下册语文第二单元《热爱中国共产党》第1课时教学课件.pptx VIP
- SAE AMS8660-2018 硅酮化合物代号S-736.pdf
- 2024年统编版(高中)政治新教材必修3政治与法治第一次月考试卷 2套汇编(含答案解析).pdf
- “技能兴威”第一届威海市职业技能大赛“无人机操控”赛项实施方案.docx
- 2024年阳泉职业技术学院单招职业技能测试题库及答案(必刷).docx VIP
- 武汉市2025届高中毕业生二月调研考试(二调)数学试卷(含答案详解).pdf
- 《基于哈佛分析框架的房地产公司财务研究国内外文献综述5100字》.pdf VIP
- 新12J01图集 工程作法.pdf
- 《热爱中国共产党》课件-2024-2025学年统编版语文一年级下册第二单元阅读1.pptx VIP
- 详解2025《增值税法》课件.ppt
文档评论(0)