- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第29卷第1期 计算机应用与软件 Vol29No.1 2012年1月 ComputerApplicationsandSoftware Jan.2012 全局游戏策略中基于经验的学习方法 宋 骁 健 (杭州电子科技大学智能与软件技术研究所 浙江杭州310018)
摘 要 全局游戏策略GGP(GeneralGamePlaying)旨在开发一种没有游戏经验支撑下能够精通各类游戏的人工智能。在原有强
化学习算法研究的基础上,提出一种基于经验的简化学习方法,通过对游戏状态的筛选和游戏经验的归纳,从而降低决策对经验数
量的需求,提高决策效率,并能达到指定胜利、平局或失败的游戏目标。通过在三种不同的游戏规则下与玩家进行游戏比赛实验表
明,该学习方法能有效地达到预期结果。
关键词 全局游戏策略 人工智能 强化学习
中图分类号 TP181 文献标识码 A EXPERIENCEGENERATIONLEARNINGINGENERALGAMEPLAYING SongXiaojian (InstituteofIntelligentandSoftwareTechnology,HangzhouDianziUniversity,Hangzhou310018,Zhejiang,China)
Abstract GeneralGamePlayingaimsatdevelopinggameplayingagentsthatareabletobecomeproficientatplayingavarietyofgames
withoutspecificpreparatorygameexperience.Afterstudyingexistingreinforcementlearningalgorithms,thepaperputsforwardanexperience
generationshortcutlearningmethod.Throughgamestatusselectionandgameexperienceconclusion,decisionmakingrequireslessexperience
andenhancesefficiency.Thedestinedgoalofthegame,eithervictory,ordraw,ordefeat,canbereached.Experimentsarecarriedoutwith
threegamerulesrespectivelyagainsthumanplayers.Itisproventhattheproposedlearningmethodcaneffectivelymeetexpectations.
Keywords Generalgameplaying Artificialintelligence Reinforcementlearning TacToe。
0 引 言 1 相关知识 游戏中智能的设计与构建一直是人工智能研究中的热门领
域。游戏中,人工智能不仅要模仿人的智能,还需要实现设计者
为了满足玩家需求所设定的目的的能力。通过对游戏信息的收 1.1 全局游戏策略
集、积累和归纳的过程,智能体在获得经验的同时,对当前状态 史坦福大学举办的关于 GGP的比赛,致力于增强对GGP
有了一定的预见性,并由此做出合理的反应。 领域的研究[5]。比赛包含游戏的完整信息、可操作且运行良好 人工智能利用在当前游戏规则下的经验体现出对游戏的掌 的游戏以及参与游戏的玩家。游戏规则采用GDL(GameDe
握程度。具有代表性的是,文献[1]提出通过建立搜索树并利 scriptionLanguage)[6]进行描述。GDL的描述内容包括游戏的
用存放人类知识的数据库来设定权值技术的“深蓝”。作为AI 初始状态、合法的操作、状态转换规则、游戏目标和判断游戏结
玩家在1997年战胜了当时等级分排名世界第一的棋手加里· [7] 束的条件。比赛的第一届优胜者是 Cluneplayer ,第二届是
卡斯帕罗夫。但是深蓝不能在其它游戏中战胜玩家。 [8] Fluxplayer 。他们的共同点是通过自动获取游戏特征值,并结 如深蓝这类人工智能的设计局限性在于过于依赖设计者的 合实时的游戏信息进行权值评估。文中所用的TicTacToe(3
个人经验。设计者在总结游戏经验后,对当前游戏规则下的判 ×3×3)游戏规则,文献[9]中有相关的解释和研究。
定过程进行归纳,并设定合理的权值,或直接采用现有的人类经 GGP游戏模式中,需要特定的操作行为对游戏过程的有限
验。针对该问题,文献[2]提出一种在没获得规则信息的条件 状态进行切换。如图1所示,游戏状
文档评论(0)