《智能机器人导论》_第7章 五子棋机器人.pptxVIP

《智能机器人导论》_第7章 五子棋机器人.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

深度学习的快速发展促进了智能机器人和机器视觉技术的成熟。随着越来越多的智能工业机器人和智能设备被研发并应用于生产和生活,人工智能领域已经不再局限于算法层面。现如今,完整的人工智能机器人系统由人工智能决策算法、机器视觉系统和硬件机械设备组成,这也成为了人工智能领域的发展趋势。智能五子棋机器人的发展可以划分为以下三个阶段:

第一阶段的智能五子棋机器人主要采用人工启发式算法。这种算法基于人类的直觉或经验,在可接受的计算时间和空间范围内提供一个可行解,但该可行解与最优解的偏差通常无法预测。虽然利用启发式算法通常可以在可接受的计算时间内求取问题的可行解,但不能保证其为全局最优解,并且该算法不稳定,其性能取决于具体问题和设计者经验。

第二阶段的智能五子棋机器人采用了蒙特卡罗树搜索算法。该算法基于实验求解事件出现的概率或随机变量的期望值,并将其作为问题的解。蒙特卡罗树搜索算法通过数学模拟实验,抓住事物运动的几何数量和几何特征,以概率模型为基础,模拟问题的过程,得到近似解。其解题流程可归结为三个主要步骤:构造或描述概率过程,实现从已知概率分布抽样,建立各种估计量。蒙特卡罗树搜索算法简单快速,在智能五子棋机器人领域得到了广泛的应用。;第三阶段的智能五子棋机器人突破性地采用了机器学习算法,成功地战胜了职业棋手。机器学习是一门关于计算机基于数据构建模型,并利用模型模拟人类智能活动的学科。借助其强大的泛化能力,机器学习展现了计算机向智能化发展的必然趋势。深蓝和“AlphaGo”等智能五子棋机器人均为基于机器学习算法的衍生产物。

本章建立了基于AlphaGobangZero算法的五子棋机器人。相比于传统方法,AlphaGobangZero不使用手工构建的评估函数和移动排序启发式算法,而是使用具有参数的深度神经网络。该神经网络以棋盘位置为输入,输出具有分量的移动概率向量,同时对每个位置估计预期结果的标量值。AlphaGobangZero完全从自我博弈中学习这些移动概率和价值估计,并用于指导它的搜索过程。;7.1背景介绍;近年来,强化学习因其强大的探索能力和自主学习能力,??经与监督学习、无监督学习(并称为三大机器学习技术。伴随着深度学习的蓬勃发展,功能强大的深度强化学习算法不断涌现,已经广泛应用于游戏对抗、机器人控制、城市交通和商业活动等领域,并取得了显著成果。AlphaGo之父DavidSilver曾指出,“深度学习+强化学习=通用人工智能”,后续大量的研究成果也表明,强化学习是实现通用人工智能的关键步骤。强化学习的核心是研究智能体与环境的相互作用,通过不断学习最优策略,做出序列决策并获得最大回报。强化学习过程可以描述为马尔可夫决策过程,MDP中智能体与环境的交互作用如图7.1所示。其中参数空间可表示为一个五元组(A,S,P,R,γ),包括动作空间A,状态空间S、状态转移P:S×S×A→[0,1]、回报R∶S×A→R和折扣因子γ∈[0,1]。在某些情况下,智能体无法观测到全部的状态空间,这类问题称为部分观测马尔可夫决策过程(POMDP),在多智能体强化学习(multi-agentRL)设置中尤其常见。;自Bellman提出动态规划方法到AlphaGo打败人类围棋冠军,强化学习经历了60年的发展,成为机器学习领域最热门的研究和应用方向之一。2006年,深度学习的提出引领了机器学习的第二次浪潮,在学术界和企业界不断升温,并成功推动了2010年之后深度强化学习的蓬勃发展。

人机对弈的起源很早,甚至早于计算机面世的时间。18世纪,巴朗·冯·开普仓发明了一款弈棋机———“Turkey”,并带着它在欧洲各国巡回表演。近代人机对弈的主要研究对象是国际象棋、围棋、中国象棋、五子棋和西洋棋等。其中,国际象棋是研究历史最久、投入最多的项目,也是屡屡获得重大突破的项目。

五子棋起源于古代中国,又称为“五子连珠”“朝鲜五目”,英文名为“Gomoku”“Renju”或“Gobang”,传入日本后得到了广泛的发展和普及。在明治时期,出现了众多五子棋高手,并对规则进行了不断的改进,例如对黑方做出各种禁手限制和将棋盘大小从19×19改为15×15等。由于五子棋黑方有巨大优势(Alis等人于1994年证明:假设棋盘无限大,双方无限对弈下去,最终获胜的一定是黑方),因此职业五子棋赛事都设有禁手规则。但为了简化问题的研究,本章采用自由式的五子棋博弈规则。;到了计算机时代,深蓝和“AlphaGo”则代表了过去和现在人类在人机对弈上的最大成就。1997年,由美国IBM公司开发的深蓝由32个微处理器组成,每秒可计算2亿步,它通过并行计算成功地在标准国际象棋比赛中打败了人类卫冕世界冠军。深蓝计

文档评论(0)

kd8w + 关注
实名认证
文档贡献者

kd8w

1亿VIP精品文档

相关文档