六子棋机器博弈关键技术分析.ppt

下载文档

0
0
约4.31千字
约 61页
2025-02-09 发布于四川
举报
版权申诉
保障服务

六子棋机器博弈关键技术分析.ppt

1、本文档共61页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

状态转换一局面的表示知识表示完整的局面信息应包含：盘面上的棋子布局走棋方是哪方棋盘的编码（举例）二维数组表示法：建立平面坐标系，如左图自底向上自左向右棋盘的表示方法数组表示bit棋盘bit向量知识表示(0,0)(0,1)(0,2)……(0,18)(1,0)(1,18)(18,18)(18,0)棋盘的编码（举例）一维数组表示法：建立平面坐标系，如左图行优先自左向右知识表示012……17181937360342棋盘的编码（13*13棋盘为例）知识表示其它的高级知识知识表示程序的知识源于何处？专家（人类大师或专业棋手）程序的自动推理其它的高级知识K子棋数据表示存在的问题：基于交叉点的数据表示；缺乏从较高层级描述各个交叉点之间的紧密联系的方法和手段；虽然可能引入了模式，但这样的模式往往无法构成局面描述的基本单位；模式知识一般是不完整的，甚至主要依赖于程序设计者的个人经验，具有随意性。知识表示知识表示在围棋中，知识的表示用“模式”、串、龙等描述。这些知识是棋手总结的一些经验，关注的是棋子之间的配合、联络、分割、围地等。六子棋比围棋简单得多。实际上，它在“模式”描述上要比围棋容易得多；而且我们能找到办法把那些可复用的知识描述和刻画得更精确。问题解决的难度受其表示方法影响。棋型棋型的抽取知识表示棋型及其诸属性棋型c棋型的颜色color(c)棋型的长度|c|棋型的形状||c||棋型的起点from(c)棋型的方向orit(c)棋型的威胁数th(c)棋型的类型ct(c)棋型的表示知识表示全部连珠共划分为12个不相交的子集，即12种类型：?WIN?；(b)?DW?；(c)?L5?；(d)?D5?；(e)?L4?；(f)?S4?；(g)?D4?；(h)?L3?；(i)?S3?；(j)?D3?；(k)?L2?；(l)?O?。知识表示棋型的分类获取棋型分类的方法黑方怎样获胜？知识表示棋型间的演化知识表示升变描述了在一个棋型中添加一枚同色棋子，它会演化为何种棋型。去除冗余的演化知识表示某些威胁类型之间的升变是非理性的，因而是冗余的。连通度的计算知识表示威胁数的计算知识表示空交叉点的分类知识判断上述棋型中各个交叉点的价值知识表示思考题下列4个棋型，用交叉点的状态序列描述，交叉点上有黑子用‘X’表示，交叉点空白用‘-’表示。请指出：下列棋型的类型；如果黑方足够理性，哪个棋型是不可能出现的，为什么？XX--XXXX-XX-XXXX-XXX--XX-XXX--XXX--XX-知识表示简评：很有价值的计算机博弈网站，里面有系统的入门资料。六子棋的对弈网站：黄晨的象棋百科全书网站：简评：大陆和台湾的六子棋高手聚集地。状态转换二0102逐步生成。基于预置表生成。着法生成的策略：先将着法分类。再根据各个子类进行排序。着法排序的策略：状态转换三参数调整需高水平棋手的参与，且耗时甚巨；容易出错且严重依赖设计者的棋类领域知识；一种棋类的经验难以推广到其它棋类。例：国际跳棋的世界冠军程序Chinook的参数调整历时5年。估值函数设计的一般方法估值函数设计的传统方法自动调整参数，无需人工干预01对领域知识要求甚少，可通过自学习提高水平例：自学习训练150万盘的西洋双陆棋TD-Gammon其水平已经全面超越人类顶尖高手。02TD学习TD学习TDLConn6的体系结构图图TDLConn6的体系结构图TD学习算法的执行过程图5.2TD学习算法的执行过程权值调整自动化——BP神经元网络输入层设计隐藏层设计输出层设计Sigmoid函数的选择g(x)=1/(1+exp(-x))用1.0表示取胜，0.5表示和棋，0.0表示输棋V(p)=?S(p)+NN(p)(SMax(?)?SMin(?))/(NNMax(?)?NNMin(?));其中，兼顾了引入先验知识和自动调整权值的需求；通过先验知识粗略勾勒出估值函数，通过神经元网络精调估值函数的权值，先验知识有助于加速训练的收敛；通过参数?来表达对先验知识的信心。估值函数优点：整合先验知识与神经元网络的估值函数自学习训练样本的选择图5.4可应用TD学习的状态序列封面123334*//