- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
退出
2019年上半年全国事业单位联考C类《综合应用能力》题(宁夏/广西/云南
/...
材料一材料二材料三
1997年,国际象棋大师加里·卡斯帕罗夫败给了电脑“深蓝”;2016年,谷
歌人工智能AlphaGo又战胜了韩国棋手李世石,这标志着人工智能终于征服了
它在棋类比赛中最后的弱项——围棋,谷歌公司的DeepMind团队比预期提前了
整整10年达到了既定目标。
对计算机来说,围棋并不是因为其规则比国际象棋复杂而难以征服——与此
完全相反,围棋规则更简单,它其实只有一种棋子,对弈的双方轮流把黑色和
白色的棋子放到一个19×19的正方形棋盘中,落下的棋子就不能再移动了,只
会在被对方棋子包围时被提走。到了棋局结束时,占据棋盘面积较多的一方为
胜者。
围棋的规则如此简单,但对于计算机来说却又异常复杂,原因在于围棋的步
数非常多,而且每一步的可能下法也非常多。以国际象棋作对比,国际象棋每
一步平均约有35种不同的可能走法,一般情况下,多数棋局会在80步之内结
束。围棋棋盘共有361个落子点,双方交替落子,整个棋局的总排列组合数共
有约10171种可能性,这远远超过了宇宙中的原子总数——1080!
对于结构简单的棋类游戏,计算机程序开发人员可以使用所谓的“暴力”方
法,再辅以一些技巧,来寻找对弈策略,也就是对余下可能出现的所有盘面都
进行尝试并给予评价,从而找出最优的走法。这种对整棵博弈树进行穷举搜索
的策略对计算能力要求很高,对围棋或者象棋程序来说是非常困难的,尤其是
围棋,从技术上来讲目前不可能做到。
“蒙特卡罗树搜索”是一种基于蒙特卡罗算法的启发式搜索策略,能够根据
对搜索空间的随机抽样来扩大搜索树,从而分析围棋这类游戏中每一步棋应该
怎么走才能够创造最好机会。举例来说,假如筐里有100个苹果,每次闭着眼
拿出1个,最终要挑出最大的1个,于是先随机拿1个,再随机拿1个跟它
比,留下大的,再随机拿1个……每拿一次,留下的苹果都至少不比上次的
小,拿的次数越多,挑出的苹果就越大。但除非拿100次,否则无法肯定挑出
了最大的。这个挑苹果的方法,就属于蒙特卡罗算法。虽然“蒙特卡罗树搜
索”在此前一些弈棋程序中也有采用,在相对较小的棋盘中也能很好地发挥作
用,但在正规的全尺寸棋盘上,这种方法仍然存在相当大的缺陷,因为涉及的
搜索树还是太大了。
AlphaGo人工智能程序中最新颖的技术当属它获取知识的方式——深度学
习。AlphaGo借助两个深度卷积神经网络(价值网络和策略网络)自主地进行
新知识的学习。深度卷积神经网络使用很多层的神经元,将其堆叠在一起,用
于生成图片逐渐抽象的、局部的表征。对图像分析得越细,利用的神经网络层
就越多。AlphaGo也采取了类似的架构,将围棋棋盘上的盘面视为19×19的图
片输入,然后通过卷积层来表征盘面。这样,两个深度卷积神经网络中的价值
网络用于评估盘面,策略网络则用于采样动作。
在深度学习的第一阶段——策略网络的有监督学习(即从I中学习)阶
段,拥有13层神经网络的AlphaGo借助围棋数据库KGS中存储的3000万份对
弈棋谱进行初步学习。这3000万份棋谱样本可以用a、b进行统计。a是一个
二维棋局,把a输入到一个卷积神经网络进行分类,分类的目标就是落子向量
A。通过不断的训练,尽可能让计算机得到的向量A接近人类高手的落子结果
b,这样就形成了一个模拟人类下围棋的神经网络,然后得出一个下棋函数
F_go()。当盘面走到任何一种情形的时候,AlphaGo都可以通过调用函数
F_go()计算的结果来得到最佳的落子结果b可能的概率分布,并依据这个概
率来挑选下一步的动作。在第二阶段——策略网络的强化学习(即从Ⅱ中
学习)阶段,AlphaGo开始结合蒙特卡罗树搜索,不再机械地调用函数库,而
类似于一种人类进化的过程:AlphaGo会和自己的老版本对弈。即,先使用
F_go(1)和F_go(1)对弈,得到了一定量的新棋谱,将这些新棋谱加入到训
练集当中,训练出新的F_go(2),再使用F_go(2)和F_go(1)对弈,以此
类推,这样就可以得到胜率更高的F_go(n)。这样,AlphaGo就可以不断改善
它在第一阶段学到的知识。在第三阶段——价值网络的强化学习阶段,AlphaGo
可以根据之前获得的学习经验得出估值函数v(s),用于预测策略网络自我对
抗时棋盘盘面s的结果。最后,则
您可能关注的文档
- 2019年上半年教师资格证考试《综合素质》(小学)题.pdf
- 2019年上半年教师资格证考试《综合素质》(幼儿园)题.pdf
- 2019年上半年全国事业单位联考B类《综合应用能力》(宁夏广西云南贵....pdf
- 2019年上半年全国事业单位联考B类《综合应用能力》(宁夏广西云南贵.pdf
- 2019年上半年全国事业单位联考D类《综合应用能力》题(小学卷).pdf
- 2019年上半年全国事业单位联考D类《综合应用能力》题(中学卷).pdf
- 2019年上海市公务员录用考试《行测》题(a类).pdf
- 2019年上海市公务员录用考试《行测》题(b类).pdf
- 2019年10月河南省焦作市市直事业单位招聘考试《申论》.pdf
- 2019年10月河南省郑州市管城回族区事业单位《综合基础知识和写作能力》(主观题).pdf
- 2019年10月浙江省杭州市上城区事业单位招聘考试《综合基础知识》(主观题).pdf
- 2019年420联考《行测》题(天津卷).pdf
- 2019年教师资格证模考大赛(小学)第二季.pdf
- 2019年教师资格证模考大赛(小学)第三季.pdf
最近下载
- 4.2 中国的工业-2023-2024学年八年级地理上册同步精品课件(湘教版).pptx VIP
- 粉色插画风医院感染基础知识培训PPT模板.pptx VIP
- 西宁市2024-2025学年九年级上学期语文期末测试试卷.doc VIP
- 湘教版八年级上册第四章中国的主要产业+第二节工业 (共18张PPT).pptx VIP
- 高品质ppt模板▏院感手卫生知识培训课件.pptx VIP
- 学堂在线兵棋期末考试答案.docx VIP
- 网络安全等级保护-重大风险隐患项描述实践指南(【2025】测评报告新增).docx VIP
- 八上第四单元--经济与文化---第3课--工业的分布-(第2课时).doc VIP
- 八上第四单元经济与文化第3课工业的分布(第1课时).doc VIP
- 博世设备文件电子版说明书instruction manualvrk4010b.pdf VIP
原创力文档


文档评论(0)