优就业程序开发分享-我对 AlphaGo 的分析
优就业程序开发分享-我对 AlphaGo 的分析3月9日至3月15日,谷歌AlphaGo将在韩国首尔与李世石进行5场围棋挑战赛。在今天的第二局较量中,AlphaGo 再下一城,以总比分 2:0 领先李世石。今天小U向大家推荐田渊栋在 3 月 1 日的一篇分析 AlphaGo 的文章。田渊栋是卡耐基梅隆大学机器人系博士。曾就职于 Google X 部门,目前是 Facebook 的智能围棋 darkforest 的负责人和第一作者。最近我仔细看了下AlphaGo在《自然》杂志上发表的文章,写一些分析给大家分享。??AlphaGo这个系统主要由几个部分组成:走棋网络(Policy Network),给定当前局面,预测/采样下一步的走棋。快速走子(Fast rollout),目标和1一样,但在适当牺牲走棋质量的条件下,速度要比1快1000倍。估值网络(Value Network),给定当前局面,估计是白胜还是黑胜。蒙特卡罗树搜索(Monte Carlo Tree Search,MCTS),把以上这三个部分连起来,形成一个完整的系统。我们的DarkForest和AlphaGo同样是用4搭建的系统。DarkForest较AlphaGo而言,在训练时加强了1,而少了2和3,然后以开源软件Pachi的缺省策略 (default policy)部分替代了2的功能。以下介绍下各部分。1.走棋网络:走
原创力文档

文档评论(0)