人工智能通识教程第2版课件第7、8章强化学习、数据挖掘.pptx

下载文档

0
0
约2.25万字
约 154页
2024-10-30 发布于福建
举报
版权申诉
保障服务

人工智能通识教程第2版课件第7、8章强化学习、数据挖掘.pptx

1、本文档共154页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

;;;;强化学习是机器学习的一个分支，是一种广泛应用于创建智能系统的模式，它研究的主要问题是：一个智能体如何在环境未知，只提供对环境的感知和偶尔的奖励情况下，对某项任务变得精通。在强化学习中，智能体在没有“老师”的情况下，通过考虑执行的

最终成功或失败，根据奖励与惩罚，

主动从自己的经验中学习，以使未来

的奖励最大化。;由于强化学习涉及的知识面广，尤其是涵盖了诸多数学知识，如贝尔曼方程、最优控制等，更需要对强化学习有系统性的梳理与认识。需要对强化学习在机器学习领域中的定位以及与其他机器学习之间的异同进行辨析。;PART01;强化学习，又称增强学习或评价学习，它侧重在线学习并试图在探索和利用之间保持平衡，用于描述和解决智能体在与环境的交互过程中，以“试错”的方式，通过学习策略达成回报最大化或实现特定目标的问题。;与监督学习和非监督学习不同，强化学习不要求预先给定任何数据，主要表现在强化信号上，通过接收环境对动作的奖励（反馈）获得学习信息并更新模型参数。由环境提供的强化信号是对产生动作的好坏作一种评价（通常为标量信号），而不是告诉强化学习系统如何去产生正确的动作。由于外部环境提供的信息很少，强化学习系统必须靠自身的经历进行学习，进而在行动—评价的环境中获得知识，改进行动方案以适应环境。;强化学习问题主要在信息论、博弈论、自动控制等领域讨论，用于解释有限理性条件下的平衡态、设计推荐系统和机器人交互系统。一些复杂的强化学习算法在一定程度上具备解决复杂问题的通用智能，可以在围棋和电子游戏中达到人类水平。;强化学习的历史主要沿两条主线发展而来，第一条主线是心理学上模仿动物学习方式的试错法，第二条主线是求解最优控制问题，两条主线最初是独立发展的。心理学上的试错法从20世纪50年代末、60年代初贯穿在人工智能的发展中，并且一定程度上促进了强化学习的发展。20世纪80年代初期，试错法随着人工智能的热潮而被学者们广泛研究。而求解最优控制法则是利用动态规划法求解最优值函数。到20世纪80年代末，基于时间差分??求解的第三条主线开始出现，它吸收前面两条主线的思想，奠定了现代强化学习在机器学习领域中的地位（表7-1）。;表7-1强化学习中有影响力的算法;有理由相信，深度学习和强化学习的结合体——深度强化学习是人工智能的未来之路。智能的系统必须能够在没有持续监督信号的情况下自主学习，而深度强化学习正是自主学习的最佳代表，能够给人工智能带来更多发展空间与想象力。人工智能系统必须能够自己去判断对与错，而不是告诉系统或者通过一种监督模拟的方法实现。;强化学习是从动物学习、参数扰动自适应控制等理论发展而来的，其基本原理是：如果智能体的某个行为策略导致环境正的奖赏（强化信号），那么该智能体以后产生这个行为策略的趋势便会加强。智能体的目标是在每个离散状态发现最优策略，以使期望的折扣奖赏最大化。;强化学习把学习看作试探评价过程。智能体选择一个动作用于环境，环境接受该动作后状态发生变化，同时产生一个强化信号（奖或惩）反馈给智能体，智能体根据强化信号和环境当前状态再选择下一个动作，选择的原则是使受到正强化（奖）的概率增大。选择的动作不仅影响立即强化值，而且影响环境下一时刻的状态及最终的强化值。;强化学习系统需要使用某种随机单元，动态地调整参数，以达到强化信号最大，智能体在可能动作空间中进行搜索并发现正确的动作。强化学习的常见模型是标准的马尔可夫决策过程（MarkovDecisionProcess,MDP）。

按给定条件，强化学习可分为基于模式强化学习和无模式强化学习，以及主动强化学习和被动强化学习。强化学习的变体包括逆向强化学习、阶层强化学习和部分可观测系统的强化学习。求解强化学习问题所使用的算法可分为策略搜索算法和值函数算法两类。可以在强化学习中使用深度学习模型，形成深度强化学习。;强化学习主要由智能体和环境组成，两者间通过奖励、状态、动作3个信号进行交互。由于智能体和环境的交互方式与人类和环境的交互方式类似，可以认为强化学习是一套通用的学习框架，用来解决通用人工智能问题，因此它也被称为通用人工智能的机器学习方法。;强化学习实际上是智能体在与环境进行交互的过程中，学会最佳决策序列。强化学习的基本组成元素定义如下。

（1）智能体：强化学习的本体，作为学习者或者决策者。

（2）环境：强化学习智能体以外的一切，主要由状态集组成。

（3）状态：表示环境的数据。状态集是环境中所有可能的状态。

（4）动作：智能体可以做出的动作。可以做出的所有动作称为动作集。;（5）奖励：智能体在执行一个动作后，获得的正/负奖励信号。奖励集是智能体可以获得的所有反馈信息，正/负奖励信号亦可称作正/负反馈信号。

（6）策略：从环境状态到动作的映射学习，该映射关系称为策略。通俗地说，智能体

您可能关注的文档

文档评论（0）

xiaobao + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

人工智能通识教程第2版课件第7、8章强化学习、数据挖掘.pptx