全局游戏策略中基于经验的学习方法.pdfVIP

下载本文档

6
0
约1.32万字
约 5页
2018-03-23 发布于北京
举报
版权申诉

全局游戏策略中基于经验的学习方法.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第２９卷第１期计算机应用与软件Ｖｏｌ２９Ｎｏ．１２０１２年１月ＣｏｍｐｕｔｅｒＡｐｐｌｉｃａｔｉｏｎｓａｎｄＳｏｆｔｗａｒｅＪａｎ．２０１２全局游戏策略中基于经验的学习方法宋骁健（杭州电子科技大学智能与软件技术研究所　浙江杭州３１００１８）摘　要　　全局游戏策略ＧＧＰ（ＧｅｎｅｒａｌＧａｍｅＰｌａｙｉｎｇ）旨在开发一种没有游戏经验支撑下能够精通各类游戏的人工智能。在原有强化学习算法研究的基础上，提出一种基于经验的简化学习方法，通过对游戏状态的筛选和游戏经验的归纳，从而降低决策对经验数量的需求，提高决策效率，并能达到指定胜利、平局或失败的游戏目标。通过在三种不同的游戏规则下与玩家进行游戏比赛实验表明，该学习方法能有效地达到预期结果。关键词　　全局游戏策略　人工智能　强化学习中图分类号　ＴＰ１８１　　　　文献标识码　ＡＥＸＰＥＲＩＥＮＣＥＧＥＮＥＲＡＴＩＯＮＬＥＡＲＮＩＮＧＩＮＧＥＮＥＲＡＬＧＡＭＥＰＬＡＹＩＮＧＳｏｎｇＸｉａｏｊｉａｎ（ＩｎｓｔｉｔｕｔｅｏｆＩｎｔｅｌｌｉｇｅｎｔａｎｄＳｏｆｔｗａｒｅＴｅｃｈｎｏｌｏｇｙ，ＨａｎｇｚｈｏｕＤｉａｎｚｉＵｎｉｖｅｒｓｉｔｙ，Ｈａｎｇｚｈｏｕ３１００１８，Ｚｈｅｊｉａｎｇ，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ　　ＧｅｎｅｒａｌＧａｍｅＰｌａｙｉｎｇａｉｍｓａｔｄｅｖｅｌｏｐｉｎｇｇａｍｅｐｌａｙｉｎｇａｇｅｎｔｓｔｈａｔａｒｅａｂｌｅｔｏｂｅｃｏｍｅｐｒｏｆｉｃｉｅｎｔａｔｐｌａｙｉｎｇａｖａｒｉｅｔｙｏｆｇａｍｅｓｗｉｔｈｏｕｔｓｐｅｃｉｆｉｃｐｒｅｐａｒａｔｏｒｙｇａｍｅｅｘｐｅｒｉｅｎｃｅ．Ａｆｔｅｒｓｔｕｄｙｉｎｇｅｘｉｓｔｉｎｇｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇａｌｇｏｒｉｔｈｍｓ，ｔｈｅｐａｐｅｒｐｕｔｓｆｏｒｗａｒｄａｎｅｘｐｅｒｉｅｎｃｅｇｅｎｅｒａｔｉｏｎｓｈｏｒｔｃｕｔｌｅａｒｎｉｎｇｍｅｔｈｏｄ．Ｔｈｒｏｕｇｈｇａｍｅｓｔａｔｕｓｓｅｌｅｃｔｉｏｎａｎｄｇａｍｅｅｘｐｅｒｉｅｎｃｅｃｏｎｃｌｕｓｉｏｎ，ｄｅｃｉｓｉｏｎｍａｋｉｎｇｒｅｑｕｉｒｅｓｌｅｓｓｅｘｐｅｒｉｅｎｃｅａｎｄｅｎｈａｎｃｅｓｅｆｆｉｃｉｅｎｃｙ．Ｔｈｅｄｅｓｔｉｎｅｄｇｏａｌｏｆｔｈｅｇａｍｅ，ｅｉｔｈｅｒｖｉｃｔｏｒｙ，ｏｒｄｒａｗ，ｏｒｄｅｆｅａｔ，ｃａｎｂｅｒｅａｃｈｅｄ．Ｅｘｐｅｒｉｍｅｎｔｓａｒｅｃａｒｒｉｅｄｏｕｔｗｉｔｈｔｈｒｅｅｇａｍｅｒｕｌｅｓｒｅｓｐｅｃｔｉｖｅｌｙａｇａｉｎｓｔｈｕｍａｎｐｌａｙｅｒｓ．Ｉｔｉｓｐｒｏｖｅｎｔｈａｔｔｈｅｐｒｏｐｏｓｅｄｌｅａｒｎｉｎｇｍｅｔｈｏｄｃａｎｅｆｆｅｃｔｉｖｅｌｙｍｅｅｔｅｘｐｅｃｔａｔｉｏｎｓ．Ｋｅｙｗｏｒｄｓ　　Ｇｅｎｅｒａｌｇａｍｅｐｌａｙｉｎｇ　Ａｒｔｉｆｉｃｉａｌｉｎｔｅｌｌｉｇｅｎｃｅ　ＲｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇＴａｃＴｏｅ。０　引　言１　相关知识游戏中智能的设计与构建一直是人工智能研究中的热门领域。游戏中，人工智能不仅要模仿人的智能，还需要实现设计者为了满足玩家需求所设定的目的的能力。通过对游戏信息的收１．１　全局游戏策略集、积累和归纳的过程，智能体在获得经验的同时，对当前状态史坦福大学举办的关于ＧＧＰ的比赛，致力于增强对ＧＧＰ有了一定的预见性，并由此做出合理的反应。领域的研究［５］。比赛包含游戏的完整信息、可操作且运行良好人工智能利用在当前游戏规则下的经验体现出对游戏的掌的游戏以及参与游戏的玩家。游戏规则采用ＧＤＬ（ＧａｍｅＤｅ 握程度。具有代表性的是，文献［１］提出通过建立搜索树并利ｓｃｒｉｐｔｉｏｎＬａｎｇｕａｇｅ）［６］进行描述。ＧＤＬ的描述内容包括游戏的用存放人类知识的数据库来设定权值技术的“深蓝”。作为ＡＩ初始状态、合法的操作、状态转换规则、游戏目标和判断游戏结玩家在１９９７年战胜了当时等级分排名世界第一的棋手加里· ［７］束的条件。比赛的第一届优胜者是Ｃｌｕｎｅｐｌａｙｅｒ，第二届是卡斯帕罗夫。但是深蓝不能在其它游戏中战胜玩家。［８］Ｆｌｕｘｐｌａｙｅｒ。他们的共同点是通过自动获取游戏特征值，并结如深蓝这类人工智能的设计局限性在于过于依赖设计者的合实时的游戏信息进行权值评估。文中所用的ＴｉｃＴａｃＴｏｅ（３个人经验。设计者在总结游戏经验后，对当前游戏规则下的判 ×３×３）游戏规则，文献［９］中有相关的解释和研究。定过程进行归纳，并设定合理的权值，或直接采用现有的人类经ＧＧＰ游戏模式中，需要特定的操作行为对游戏过程的有限验。针对该问题，文献［２］提出一种在没获得规则信息的条件状态进行切换。如图１所示，游戏状