优就业程序开发分享-我对 AlphaGo 的分析.docx

下载文档 降价啦

4
0
约4.87千字
约 10页
2016-08-22 发布于湖北
举报
保障服务

优就业程序开发分享-我对 AlphaGo 的分析.docx

优就业程序开发分享-我对 AlphaGo 的分析

优就业程序开发分享-我对 AlphaGo 的分析3月9日至3月15日，谷歌AlphaGo将在韩国首尔与李世石进行5场围棋挑战赛。在今天的第二局较量中，AlphaGo 再下一城，以总比分 2:0 领先李世石。今天小U向大家推荐田渊栋在 3 月 1 日的一篇分析 AlphaGo 的文章。田渊栋是卡耐基梅隆大学机器人系博士。曾就职于 Google X 部门，目前是 Facebook 的智能围棋 darkforest 的负责人和第一作者。最近我仔细看了下AlphaGo在《自然》杂志上发表的文章，写一些分析给大家分享。??AlphaGo这个系统主要由几个部分组成：走棋网络(Policy Network)，给定当前局面，预测/采样下一步的走棋。快速走子(Fast rollout)，目标和1一样，但在适当牺牲走棋质量的条件下，速度要比1快1000倍。估值网络(Value Network)，给定当前局面，估计是白胜还是黑胜。蒙特卡罗树搜索(Monte Carlo Tree Search，MCTS)，把以上这三个部分连起来，形成一个完整的系统。我们的DarkForest和AlphaGo同样是用4搭建的系统。DarkForest较AlphaGo而言，在训练时加强了1，而少了2和3，然后以开源软件Pachi的缺省策略 (default policy)部分替代了2的功能。以下介绍下各部分。1.走棋网络：走

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

优就业程序开发分享-我对 AlphaGo 的分析.docx