信息安全技术研究中心年汇报.PPTVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

时序差分学习在非完备信息

机器博弈中的应用

王轩许朝阳

智能计算中心

2007.10.3

主要内容非完备信息博弈简介12时序差分在四国军旗中的应用3时序差分学习算法介绍

非完备信息博弈完备信息博弈(PerfectInformationGame):中国象棋;围棋;…非完备信息博弈(ImperfectInformationGame):四国军棋;牌类游戏:红心大战,拱猪….….

非完备信息博弈树菱形表示随机节点

四国军旗游戏

蒙特卡罗抽样根据前面的走步来更新棋子的概率表;根据更新后的棋子概率表,为棋盘上的每个棋子随机选择棋子的种类,得到一个完备信息棋局;对该完备信息棋局进行MaxMin博弈树搜索,找到一个最佳走步;多次重复上述过程,选择选中次数最多的走步作为最终的最佳走步;

概率表的建立根据112个经典布局来设定各个棋子的概率表;根据走步结果来修改棋子的概率表;为棋盘上的每个棋子都建立各自的概率表;

主要内容非完备信息博弈简介12时序差分在四国军旗中的应用3时序差分学习算法介绍

时序差分学习最早由Sutton提出;他证明时序差分学习可以和有监督学习获得同样的结果而且占用更少的内存,收敛更快;TD最成功的应用是Tesauro根据时序差分编制的西洋双陆棋程序TDGammon,棋力可以和最好的人类棋手相媲美;

TDGammon

时序差分学习场景

时序差分学习基本概念智能体(Agent)从外部环境(Environment)中读取输入(State),根据State来选择采取哪个行动(Action);外部环境根据action的结果提供给智能体一个回报值(reward);在一个阶段结束之后,智能体根据回报值,采用某个学习算法(例如时序差分学习算法)来调整自己的行为;

时序差分调整算法基本概念步数t=1,2,3,……表示到了第几步;St表示第t步时的棋盘状态;w是描述棋局状态的一个向量,里面是描述棋局的各种参数(如各种棋子的基本值等);rst表示在状态St时采取某个走步所获得的回报值;在游戏结束时的回报值rsn是确定的,比如1表示赢了,-1表示输了,0表示和局;定义估值函数J(St,w)来模拟逼近第t步时采取某个走步时的回报值rst;假设从游戏开始到结束经历了n步,则估值函数序列为:J(S1,w),J(S2,w)….J(Sn-1,w),rsn;

时序差分调整算法期望找到一个最佳向量w,使得估值函数J(S,w)在棋局状态S下能够和真实回报值J*(S,w)之间的error最小:定义在第t步的时序差分dt如下:最后的dN-1是实际的最终结果rsn和第n-1步预测之间的差值。在一轮游戏结束时,TD(λ)利用下面的公式来更新和调整参数向量w:

时序差分公式其中是估值函数J在状态St时关于参数向量w的偏导数,α是一个0到1之间的一个正常数,控制了学习的速率;λ也是一个0到1之间的正常数,控制着时序差分更新时向前传播的百分比;

主要内容非完备信息博弈简介12时序差分在四国军旗中的应用3时序差分学习算法介绍

系统运行界面

系统基本架构

四国军旗系统特点搜索空间巨大;非完备信息博弈,这里采用了蒙特卡罗抽样技术来解决;搜索算法根据军棋游戏的特点,使用了历史启发搜索算法,HistoryHeuristics;估值函数采用时序差分学习技术进行优化

估值函数的优化-时序差分估值函数是博弈程序的核心;原来的估值函数结构简单,难以有效的描述棋局;时序差分定义了一系列的描述棋盘的参数,并通过不断调整这些参数来逼近棋局的真实状况;

四国军旗系统场景设计Agent是人工智能玩家;Environment外部环境是所有可能的棋局构成的集合;State是当前棋局;Action集合是在当前棋局下所有合法的走步;回报值r在游戏结束时,有3个可能的值:1,-1,0。1表示赢了,-1表示输了,0表示和局;游戏中间使用估值函数J来模拟逼近回报值r;

四国军旗中的时序差分在一局游戏结束时根据时序差分学习算法进行调整;希望对从游戏开始到游戏结束所经历的每个棋局S,由估值函数J(S,w)所算出来的回报值和真实值J*之间的差值最小;例如,理想的回报值可能是这样的:S1S2……SN-1SN0.90

文档评论(0)

186****7526 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档