人工智能与信息社会课件：607熟能生巧：持续更新.pdfVIP

下载本文档

1
0
约1.43千字
约 9页
2020-08-13 发布于安徽
举报
版权申诉

人工智能与信息社会课件：607熟能生巧：持续更新.pdf

1、本文档共9页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

人工智能与信息社会基于神经网络的智能系统II：熟能生巧-持续更新陈斌北京大学gischen@pku.edu.cn 学习流程〉初始化Q函数〉不断重复每一局游戏选择动作得到回报更新Q函数〉最终得到一个好的Q 函数北京大学地球与空间科学学院/ 陈斌/2018 动作-状态序列〉每一局游戏都是一个动作状态序列〉下一个状态只和当前的状态+动作有关（马尔可夫性质）北京大学地球与空间科学学院/ 陈斌/2018 长期回报〉除了试错式搜索之外，强化学习的另一个重要的特点是回报的滞后性。〉当前状态下的动作所产生的回报不仅取决于下一个状态，还取决于整个序列之后的每一个状态。北京大学地球与空间科学学院/ 陈斌/2018 回报率〉当前的动作对下一状态的影响是最直接的，对后续状态影响没那么直接。〉某些动作产生的当前回报值比较高，但从长远来看，可能并没有那么高。〉因此我们用一个回报率来平衡下一状态回报和更远状态回报。 0.9x 状态1 +0.81x 状态2 +0.729x 状态3 +…… 北京大学地球与空间科学学院/ 陈斌/2018 回报函数〉每一次游戏会产生不同的状态动作序列，即每一次对后续状态的回报计算都不相同。〉我们用后续状态的期望，即所有之后的序列的回报平均值作为回报函数。〉回报函数值就是Q值。北京大学地球与空间科学学院/ 陈斌/2018 学习过程〉每完成一局之后，就持续更新Q函数。〉完成的局数越多，更新的次数就越多，结果也越准确。旧的Q值新的Q值这次尝试后更新的回报北京大学地球与空间科学学院/ 陈斌/2018 学习率〉既要利用好已经学好的值，也要善于学习新的值。〉这两者就通过学习率来平衡，一开始学习率可以大一些，最后稳定时学习率可以小一些。旧的Q值新的Q值这次尝试后学习率更新的回报北京大学地球与空间科学学院/ 陈斌/2018 熟能生巧〉通过上述公式学习，在足够多的尝试之后， AI所学到的状态动作值函数Q就能够达到一个较优的结果。〉再根据这个Q函数来选择动作，就 “熟能生巧”了！北京大学地球与空间科学学院/ 陈斌/2018