FAFU机器学习 10-1einforcementearning中文.pptxVIP

下载本文档

2
0
约6.92千字
约 32页
2023-11-06 发布于陕西
举报
版权申诉

FAFU机器学习 10-1einforcementearning中文.pptx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

机器学习基础强化学习2020/12/3强化学习第10-1课强化学习（Reinforcement learning）概述K-摇臂赌博机贝尔曼（Bellman）方程MDP（Markov decision process）问题建模基于价值迭代（Value iteration）的求解方法策略迭代（Policy iteration）的求解方法比较Value iteration和Policy iterationQ-learning2020/12/3强化学习第10-2课（强化学习）强化学习诞生于上世纪 80 年代，最初应用于制造业，特别是工业机器人的自动控制，近年来随着其他机器方法的成熟开始应用于更加”智能”的场景，除了大名鼎鼎的 Alpha GO，google deepmind 团队还应用强化学习实现了计算机自主学习玩 Atari 系列电子游戏并超越了人类玩家的水平。2020/12/3强化学习第10-3课（强化学习）强化学习（Reinforcement learning）的基本内涵是将问题用代理（Agent，有的地方也将其翻译为智能体）和环境进行建模。其中代理能够对环境执行一些特定的动作a∈A，从而到达某个状态s∈S，然后我们就可以根据该状态为代理赋予特定的奖励r。强化学习的基本思想如下图所示：2020/12/3强化学习第10-4课（强化学习）强化学习（Reinforcement learning）的基本内涵是将问题用代理（Agent，有的地方也将其翻译为智能体）和环境进行建模。其中代理能够对环境执行一些特定的动作a∈A，从而到达某个状态s∈S，然后我们就可以根据该状态为代理赋予特定的奖励r。强代理的目标是最大化未来的奖励总和，它通过将未来可获得的最大奖励添加到当前的奖励来实现这一点（类似于贪心算法），从而通过潜在的奖励影响当前行动。这个潜在奖励（Value）是从当前状态开始的所有未来动作的奖励期望值的加权和。2020/12/3强化学习第10-5课 K-摇臂赌博机探索与利用与一般监督学习不同，强化学习任务的最终奖赏是在多步动作之后才能观察到，这里我们不妨先考虑比较简单的情形:最大化单步奖赏，即仅考虑一步操作.需注意的是，即使在这样的简化情形下，强化学习仍与监督学习有显著不同，因为机器需通过尝试来发现各个动作产生的结果，而没有训练数据告诉机器应当做哪个动作.欲最大化单步奖赏需考虑两个方面:一是需知道每个动作带来的奖赏，二是要执行奖赏最大的动作.若每个动作对应的奖赏是一个确定值，那么尝试一遍所有的动作便能找出奖赏最大的动作.然而，更一般的情形是，一个动作的奖赏值是来自于一个概率分布，仅通过一次尝试并不能确切地获得平均奖赏值.单步强化学习任务对应一个理论模型，即“ K-摇臂赌博机”2023/11/4Reinforcement LearningLesson 10 - 6 K-摇臂赌博机探索与利用若仅为获知每个摇臂的期望奖赏，则可采用“仅探索” (exploration Only)法:将所有的尝试机会平均分配给每个摇臂(即轮流按下每个摇臂)，最后以每个摇臂各自的平均吐币概率作为其奖赏期望的近似估计.若仅为执行奖赏最大的动作，则可采用“仅利用 (exploitation-only) 法:按下目前最优的(即到目前为止平均奖赏最大的)摇臂，若有多个摇臂同为最优，则从中随机选取一个.显然，仅探索法能很好地估计每个摇臂的奖赏，却会失去很多选择最优摇臂的机会;仅利用法则相反，它没有很好地估计摇臂期望奖赏，很可能经常选不到最优摇臂.因此，这两种方法都难以使最终的累积奖赏最大化.2023/11/4Reinforcement LearningLesson 10 - 7 K-摇臂赌博机探索与利用ε-贪心法ε-贪心法基于一个概率来对探索和利用进行折中:每次尝试时，以ε 的概率进行探索，即以均匀概率随机选取一个摇臂;以1- ε的概率进行利用，即选择当前平均奖赏最高的摇臂(若有多个，则随机选取一个).Q(k) 记录摇臂k 的平均奖赏2023/11/4Reinforcement LearningLesson 10 - 8 K-摇臂赌博机探索与利用ε-贪心法Softmax 算法Softmax 算法基于当前已知的摇臂平均奖赏来对探索和利用进行折中.若各摇臂的平均奖赏相当，则选取各摇臂的概率也相当;若某些摇臂的平均奖赏明显高于其他摇臂，则它们被选取的概率也明显更高.Softmax 算法中摇臂概率的分配是基于Boltzmann 分布2023/11/4Reinforcement LearningLesson 10 - 9Boltzmann 分布选择强化学习问题的马尔科夫决策过程描述通常人们用马尔科夫决策过程（Markov decision process，MDP）?来描述强化