黑白棋自我学习的改进策略-嘉义大学.pdfVIP

下载本文档

16
0
约1.01万字
约 10页
2017-10-18 发布于天津
举报
版权申诉

黑白棋自我学习的改进策略-嘉义大学.pdf

1、本文档共10页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

黑白棋自我学习的改进策略-嘉义大学

2004/6/1 黑白棋自我學習的改進策略賴泳伶國立嘉義大學資訊工程學系張孝凡國立嘉義大學資訊工程學系摘要本文提出一個黑白棋程式的自我學習策略。我們首先以動態程序（dynamic programming ）的方式改進alpha-beta search 的效率，再利用動態搜尋時間的方式進行自我對奕，作開局資料庫與圖樣辨識（pattern recognize ）的學習，讓程式的自我學習能夠在微幅的失真度下，大幅提昇學習速度。經過調整圖樣辨識區域與測試後，證實我們的自我學習策略能在小幅度的失真下，顯著提昇自我學習效率。這個策略經過修正後，也可以應用在其它棋戲程式上，作為原演算法的輔助，提昇棋戲程式的棋力。關鍵詞：黑白棋、機器學習、自我學習、人工智慧 1.研究動機與目的電腦棋戲程式運用人工智慧演算法，經過各方先進多年的研究與改進，在部份的棋戲中，已設計出許多遠勝於人腦的程式系統。黑白棋程式的演進，就屬其中之一。在黑白棋的規則中，限制落子後必須能翻對手棋子，才是合法棋步[5] ，因此每一手棋的合法棋步侷限在 1 （即使是pass ，也是一種合法棋步）至 15 步上下(超過 15 較少出現) ，平均約在 8 步左右。這樣的分支度相較於其它的棋戲（如圍棋平均超過200 步、象棋概估至少超過50 步…），可說遠低得多。因此一般以min-max 搜尋法，配合alpha-beta cut 來設計的黑白棋程式，即使審局函數（evaluation function ）的設計並不十分講究，在現今電腦的高速執行下，經過多層的搜尋後，均能有良好的棋力表現。此外由於黑白棋每下完一手棋，必須翻轉對手被包夾的棋子，因此棋面上最多可產生20 顆棋子的變化（自己下一顆棋子+ 1 2004/6/1 翻轉對手 19 顆棋子），如此複雜的盤面演化，使得人腦難以推算多步以後的盤面，更難以分析多步以後的利弊得失。因此，若以目前世界頂尖的黑白棋程式，與人類黑白棋冠軍對奕，結果可說程式將會獲得壓倒性的勝利。從搜尋的角度分析，黑白棋從開局到終局，平均雙方共落子 60 手，若要搜尋出第一步棋的最佳解，其複雜度為O(n60) ，依前述平均每一手分支度為8 代入 54 n ，則約為 1.5*10 。這樣的高複雜度告訴我們，程式無法在短時間內，以搜尋的方式，完成最佳解的搜尋（事實上即使搜尋幾百萬世紀也搜尋不完）。再從盤面變化的組合來分析，黑白棋使用的是8*8 的棋盤，每一格可以有空點、黑棋與白棋三種變化，因此盤面最多有364 （約為3.4*1030 ）種組合，即使考慮對稱性，並將部份不可能出現（不合理）的盤面扣除掉，其空間複雜度仍會是個天文數字。因此在黑白棋的世界裏，雖然人腦的棋力早已遠不如電腦，但在先手或後手必勝還沒有被證明出來之前，程式的棋力，仍舊有再進步的空間。為追求程式棋力的精進，最直接的做法，就是改進審局函數的精確度，與增加搜尋深度[2] 。這二種做法是魚與熊掌，無法得兼。舉例來說，能佔得棋盤的角與邊的棋步，可能是比較好的棋步；或是能迫使對方無棋可下的棋步，也可能是較佳的選擇。於是藉由在審局函數中，加入這些分析，使局勢判斷更為精確。但是這些被額外加入的分析，勢必會增加審局函數的時間複雜度。也就是說，要達到原有的搜尋深度，必須耗費更多的搜尋時間；或是在相同的搜尋時限內，付出搜尋深度減少的代價。使程式棋力提昇的另一種做法，則是製做開局資料庫系統。這個做法在象棋 [1]與在黑白棋[3]的應用上都已被提出，且已知在象棋上有良好的表現。這類資料庫系統的目的，在大量蒐集棋譜，藉由資料的累積，統