深度学习用于爱因斯坦棋研发之初步探讨.PDFVIP

下载本文档

217
0
约1.12万字
约 10页
2017-08-16 发布于天津
举报
版权申诉

深度学习用于爱因斯坦棋研发之初步探讨.PDF

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

深度学习用于爱因斯坦棋研发之初步探讨.PDF

深度學習用於愛因斯坦棋研發之初步探討曹少剛林順喜  摘要 — 愛因斯坦棋，是於西元 2004 年由德國中部耶拿(Jena)鎮的一位數學教授—Ingo Althöfer所發明的兩人骰棋類遊戲，在5x5的棋盤中放入雙方各六個棋子，融入骰子這個不確定的要素，大大地增加此遊戲的複雜度。本研究將嘗試利用蒙地卡羅演算法、類神經網路的方法，嘗試使用、尋找各種不同的特徵，將這些特徵互相搭配以形成不同的 Feature Maps ，藉此訓練類神經網路各個節點的參數(權重 ) ，期望新的方法可以達到、擁有，甚至是超越目前其他強力的愛因斯坦棋下棋程式的棋力。關鍵詞 —電腦對局、愛因斯坦棋、蒙地卡羅法、類神經網路、深度學習 1. 前言 1.1 愛因斯坦棋與棋規愛因斯坦棋[3] ，是一個雙人骰棋對戰遊戲，棋盤的尺寸為5x5 ，對弈的雙方分別各持藍、紅色棋子，雙方可以用任何方式決定哪一方做先、後手，每一盤棋結束後交換先後手順序。愛因斯坦棋主要的棋規有以下幾點： 1.雙方輪流擲骰子且依骰子點數決定移動子。 2.移動子最多三個方向決定一個移動方向並且不可超出棋盤外(紅：右、下、右下，藍：左、上、左上) 。 3.若所擲到的點數的棋子已經被吃掉的時候，則從最接近所擲點數的棋子選其一，再選擇移動方向，例如：藍方擲骰子擲到點數 5 ，若點數為的棋子還在棋盤上，則必5 須選擇點數的棋子，並且從最多三個走步方向之內選擇其一移動；若點數5 的棋子5 已經不在棋盤上，但是點數 4 、的棋子還在棋盤上，則藍方可以從點數6 4或的棋子6 做選擇並移動。 4.若移動的目的地上有棋子的話，不管敵我都會將位於目的地的棋子吃掉。愛因斯坦棋的獲勝條件有二： 1. 殲滅對方所有棋子。 2.己方任一個棋子比敵方早到達敵方陣地的角落 (紅：棋盤右下角，藍：棋盤左上角) 。曹少剛國立臺灣師範大學資訊工程學系 (Email: gary80328@) 林順喜國立臺灣師範大學資訊工程學系 (Email: linss@.tw) 圖 1:愛因斯坦棋的棋盤愛因斯坦棋相較於其他棋類遊戲較小的5x5的棋盤、較少的最大棋子數，表面上看起來會讓人以為是個複雜度沒有那麼高的棋類遊戲。但是，有一條特別的遊戲規則：擲骰子決定當回合可移動的棋子。如何讓己方的走步選擇受骰子影響度降低、提高己方棋子整體走步靈活度，同時防止敵方走步受骰子影響度降低、限制敵方棋子整體走步靈活度提升幅度，將會是在棋局獲勝的重要關鍵。不過，此種戰術是一把雙面刃，有可能會發生敵眾我寡的盤面，這時若敵方採取殲滅我方棋子、一換一的策略，我方將陷於不利。因此，必須適當地、謹慎地控制敵我的棋子數量比、對盤面情勢的掌控、敵我分佈和敵我棋子間的間距，才能有效地發揮此戰術的優勢。因為其特殊的骰子決定移動子的規則以及吃子、缺子情況對盤面情勢的影響，遊戲樹搜尋法若是以當前盤面情況規則評分和各個棋子走步的期望值作為判斷依據的話，我們很難窮舉出所有可能，並且給予最佳的評分組合。此外，骰子點數對愛因斯坦棋盤面走勢影響甚鉅，這也導致程式常常會選擇勝率較大的走步，而忽略了勝率小卻能扳回劣勢的險棋。 1.2 類神經網路的發展類神經網路(neural network ，簡稱NN ) ，此名詞在數十年前就已經出現，其結構上，模仿了生物神經網路，利用了各個人工神經元間的互相連接，以傳遞演算法 (propagation )和反傳遞演算法 (back propagation ) ，調整儲存於每個人工神經元內的參數 (權重 ) ，此動作被稱之為「訓練」類神經網路，訓練完成的類神經網路，可以解決舊有的機器學習方法無法解決的問題，例如：異同問題 (XOR ) 。雖然因為類神經網路的出現，解決了一些難題，但是它有著嚴重的缺點，就是當問題較為複雜的時候，需要的參數 (權重 )也就越多，訓練類神經網路的過程所耗費的時間將會大大地增加，以當時的硬體技術，是無法克服的，因此