全局游戏策略中基于经验的学习方法.pdfVIP

全局游戏策略中基于经验的学习方法.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第29卷第1期 计算机应用与软件 Vol29No.1 2012年1月 ComputerApplicationsandSoftware Jan.2012 全局游戏策略中基于经验的学习方法 宋 骁 健 (杭州电子科技大学智能与软件技术研究所 浙江杭州310018) 摘 要  全局游戏策略GGP(GeneralGamePlaying)旨在开发一种没有游戏经验支撑下能够精通各类游戏的人工智能。在原有强 化学习算法研究的基础上,提出一种基于经验的简化学习方法,通过对游戏状态的筛选和游戏经验的归纳,从而降低决策对经验数 量的需求,提高决策效率,并能达到指定胜利、平局或失败的游戏目标。通过在三种不同的游戏规则下与玩家进行游戏比赛实验表 明,该学习方法能有效地达到预期结果。 关键词  全局游戏策略 人工智能 强化学习 中图分类号 TP181    文献标识码 A EXPERIENCEGENERATIONLEARNINGINGENERALGAMEPLAYING SongXiaojian (InstituteofIntelligentandSoftwareTechnology,HangzhouDianziUniversity,Hangzhou310018,Zhejiang,China) Abstract  GeneralGamePlayingaimsatdevelopinggameplayingagentsthatareabletobecomeproficientatplayingavarietyofgames withoutspecificpreparatorygameexperience.Afterstudyingexistingreinforcementlearningalgorithms,thepaperputsforwardanexperience generationshortcutlearningmethod.Throughgamestatusselectionandgameexperienceconclusion,decisionmakingrequireslessexperience andenhancesefficiency.Thedestinedgoalofthegame,eithervictory,ordraw,ordefeat,canbereached.Experimentsarecarriedoutwith threegamerulesrespectivelyagainsthumanplayers.Itisproventhattheproposedlearningmethodcaneffectivelymeetexpectations. Keywords  Generalgameplaying Artificialintelligence Reinforcementlearning TacToe。 0 引 言 1 相关知识 游戏中智能的设计与构建一直是人工智能研究中的热门领 域。游戏中,人工智能不仅要模仿人的智能,还需要实现设计者 为了满足玩家需求所设定的目的的能力。通过对游戏信息的收 1.1 全局游戏策略 集、积累和归纳的过程,智能体在获得经验的同时,对当前状态 史坦福大学举办的关于 GGP的比赛,致力于增强对GGP 有了一定的预见性,并由此做出合理的反应。 领域的研究[5]。比赛包含游戏的完整信息、可操作且运行良好 人工智能利用在当前游戏规则下的经验体现出对游戏的掌 的游戏以及参与游戏的玩家。游戏规则采用GDL(GameDe 握程度。具有代表性的是,文献[1]提出通过建立搜索树并利 scriptionLanguage)[6]进行描述。GDL的描述内容包括游戏的 用存放人类知识的数据库来设定权值技术的“深蓝”。作为AI 初始状态、合法的操作、状态转换规则、游戏目标和判断游戏结 玩家在1997年战胜了当时等级分排名世界第一的棋手加里· [7] 束的条件。比赛的第一届优胜者是 Cluneplayer ,第二届是 卡斯帕罗夫。但是深蓝不能在其它游戏中战胜玩家。 [8] Fluxplayer 。他们的共同点是通过自动获取游戏特征值,并结 如深蓝这类人工智能的设计局限性在于过于依赖设计者的 合实时的游戏信息进行权值评估。文中所用的TicTacToe(3 个人经验。设计者在总结游戏经验后,对当前游戏规则下的判 ×3×3)游戏规则,文献[9]中有相关的解释和研究。 定过程进行归纳,并设定合理的权值,或直接采用现有的人类经 GGP游戏模式中,需要特定的操作行为对游戏过程的有限 验。针对该问题,文献[2]提出一种在没获得规则信息的条件 状态进行切换。如图1所示,游戏状

文档评论(0)

yingzhiguo + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:5243141323000000

1亿VIP精品文档

相关文档