信息安全技术研究中心年汇报-与非网-EEFOCUS.PPT

信息安全技术研究中心年汇报-与非网-EEFOCUS.PPT

信息安全技术研究中心年汇报-与非网-EEFOCUS

时序差分学习在非完备信息 机器博弈中的应用 王轩 许朝阳 哈尔滨工业大学深圳研究生院 智能计算中心 2007.10.3 主要内容 非完备信息博弈简介 1 2 时序差分在四国军旗中的应用 3 时序差分学习算法介绍 非完备信息博弈 完备信息博弈(Perfect Information Game ): 中国象棋; 围棋; … 非完备信息博弈(Imperfect Information Game ): 四国军棋; 牌类游戏:红心大战,拱猪…. …. 非完备信息博弈树 菱形表示随机节点 四国军旗游戏 蒙特卡罗抽样 根据前面的走步来更新棋子的概率表; 根据更新后的棋子概率表,为棋盘上的 每个棋子随机选择棋子的种类,得到一个 完备信息棋局; 对该完备信息棋局进行MaxMin博弈树搜索, 找到一个最佳走步; 多次重复上述过程,选择选中次数最多的走步 作为最终的最佳走步; 概率表的建立 根据112个经典布局来设定各个棋子的概率表; 根据走步结果来修改棋子的概率表; 为棋盘上的每个棋子都建立各自的概率表; 主要内容 非完备信息博弈简介 1 2 时序差分在四国军旗中的应用 3 时序差分学习算法介绍 时序差分学习

文档评论(0)

1亿VIP精品文档

相关文档