强化学习简介汇编.docVIP

下载本文档

6
0
约1.83万字
约 15页
2017-04-18 发布于湖北
举报
版权申诉

强化学习简介汇编.doc

1、本文档共15页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

强化学习简介汇编

第1章简介我们在考虑学习的本性时，可能最先想到的是通过与环境的交互来进行学习。例如，一个婴儿在玩耍时，不存在明确的某位老师来教他如何晃动手臂或向四周张望，但是确实通过感觉器官与环境直接联系。运用这种联系能够产生一些关于起因和结果、动作的后果以及为达到目的而采取的措施等有价值的信息。在我们的生活中，这样的交互无疑是我们获得关于环境与自身的知识的主要源泉。无论我们在学习开车或是进行谈话时，我们都能准确地意识到环境对我们所做事情的反应，并且我们也会试着用自己的行为来影响环境。从交互中学习几乎是所有关于学习和智能的理论的最基本思想。在本书中，我们将探讨一种从交互中进行学习的计算型（computational）方法。我们不是直接探索人和动物如何学习的理论，而是研究理想化的学习场景并评价各种学习方法的效果。也就是说，我们采用的是人工智能研究人员或工程师的视线与角度。我们探讨一种设计方案，该方案能够让机器解决具有科学或经济价值的学习问题，随后通过数学分析或计算实验来评估这些设计方案。这种方法称为强化学习（reinforcement learning），与其他机器学习方法不同的是，它着重于从交互中进行以目标为导向的学习。 1.1强化学习强化学习就是学习如何将场景（环境状态）映射到动作，以获取最大的、数值的、奖赏信号。与大多数机器学习方法一样，学习者不被告知应该采用哪个动作，而是通过不断地尝试来发现能获得最大奖赏的动作。在最有趣且最具挑战性的例子中，动作不只影响直接奖赏，而且也会影响下一场景，以至于所有的后续奖赏。这样的两个特征：试错搜索和延迟奖赏，是强化学习的最重要特征。强化学习并不是通过描述它的学习方法而定义的，而是通过描述一个学习问题来定义的。任何适合解决这一学习问题的方法，我们都认为是强化学习方法。虽然要到第3章，我们才能根据马尔可夫决策过程的最优控制理论来完整地描述一个强化学习问题，但是，对于通过与环境的交互而达到目标的学习中的agent，一些基本的概念就能够说明真实问题的最重要的基本思想。显然，这样的agent必须能够在一定程度上感知环境的状态，并且必须能够采取动作，所采取的动作又会影响环境。这个agent还必须有一个或多个与环境状态有关的目标。因此，为此而设计的公式当中必须包含三个方面——感知能力、动作和目标，这是最简单并缺一不可的可能形式。强化学习不同于监督学习（supervised learning），监督学习是目前在机器学习、统计模式识别和人工神经网络的研究领域中，最为广泛研究的一种学习。监督学习是从样例学习，而样例是由富有知识的外部监督者提供的。这是一种重要的学习方法，但是它不能单独地用于交互学习。在交互式问题中获得期望行为的样例通常是不切实际的，这些样例不仅要是正确的，还要能代表agent的所有场景，在这些场景中，agent采取动作。在一些我们希望学习能够带来利益的未知领域，agent必须能够从自身的经验中学习。一个在强化学习中存在，而在其他类型学习中不存在的挑战，是探索和利用之间的平衡。为了得到更大的奖赏，强化学习agent必须选择它过去已经尝试过的在产生奖赏方面行之有效的动作（这就是利用）。而为了发现这样的动作，它又必须去尝试以前没有选择过的动作（这就是探索）。因此，为了得到奖赏，agent必须利用它已经知道的信息，同时还必须进行探索，以便将来能选择到更好的动作。令人为难的是，单单采用探索或只有利用都会导致任务失败。agent必须尝试各种动作，并且渐渐趋近于那些表现最好的动作。在一个随机任务中，每个动作都必须被尝试多次才能获得对它的期望奖赏的可靠估计。多年来，数学家们一直在广泛研究探索—利用这一两难问题（见第2章）。在这里，我们简单地认为，探索和利用的平衡问题在监督学习中，根本就不存在，正如它所定义的那样（样例学习阶段之后，就只有利用了）。强化学习的另一个关键特征，是它明确地提出整个问题是一个以目标为导向的agent与不确定的环境之间交互的问题。这种学习与许多其他方法相比，其他方法只考虑了子任务，而没有解决怎样可以把这些子任务整合到一个更大的框架中。例如，我们以前提过，许多与监督学习有关的机器学习研究都没有明确说明这样的能力最终将如何利用。其他研究者发展了通用的目标规划的理论，但没有考虑在实时决策中如何进行规划，也没有考虑规划所必需的预测模型将从哪里来的问题。尽管这些方法已经产生了许多有用成果，但是，它们将重点放在孤立的子问题上的做法是一个严重的局限。强化学习采用相反的方式，它从一个完全的、交互的、目标搜索的agent开始。所有强化学习的agent都有明确的目标，能感知环境中的各个方面，并且能选择动作来影响环境。另外，通常我们从开始就假设：尽管agent面对的是一个它很不了解的环境，但它必须得有所动