1_强化学习介绍翻译要点解析.docVIP

下载本文档

137
0
约1.81万字
约 15页
2016-04-28 发布于湖北
举报

1_强化学习介绍翻译要点解析.doc

第1章简介我们在考虑学习时，可能最先想到的是通过与环境的交互来进行学习。一个婴儿在玩耍的时候，不存在明确的某位老师来教他如何晃动手臂或向四周张望，但是确实通过感觉器官与环境直接联系。运用这种联系能够产生一些关于起因和结果、动作的后果以及为达到目的而采取的措施等有价值的信息。在我们的生活中，这样的交互无疑是我们获得关于环境与自身的知识的主要源泉。无论我们在学习开车或是进行谈话时，我们都能准确地意识到环境对我们所做事情的反应，并且我们也会试着用自己的行为来影响环境。从交互中学习几乎是所有关于学习和智能的理论的最基本思想。在本书，我们探讨一种从交互中进行学习的计算型（computational）方法。我们不是直接探索人和动物如何学习的理论，而是研究理想化的学习场景并评价各种学习方法的效果。也就是说，我们采用的是人工智能研究者或工程师的视线与角度。我们探讨一种能够让机器解决具有科学或经济价值的学习问题的设计方案，通过数学分析或计算实验来评估这些设计方案。这种方法称为强化学习（reinforcement learning），与其他机器学习方法不同的是，它着重于从交互中进行以目标为导向的学习。 1.1强化学习强化学习就是学习如何将场景（环境状态）映射到动作，以获取最大的、数值的、奖赏信号。与大多数机器学习方法一样，学习者不被告知应该采用哪个动作，而是通过不断地尝试来发现能获得最大奖赏的动作。在最有趣且最具挑战性的例子中，动作不只影响直接奖赏，而且也会影响下一场景，以至于所有的后续奖赏。这样的两个特征：试错搜索和延迟奖赏，是强化学习的最重要特征。强化学习并不是通过描述它的学习方法而定义的，而是通过描述一个学习问题来定义的。任何适合解决这一学习问题的方法，我们都认为是强化学习方法。虽然要到第3章，我们才能根据马尔可夫决策过程的最优控制理论来完整地描述一个强化学习问题，但是，对于通过与环境的交互而达到目标的学习中的agent，一些基本的概念就能够说明真实问题的最重要的基本思想。显然，这样的agent必须能够在一定程度上感知环境的状态，并且必须能够采取动作，所采取的动作，又会影响环境。这个agent还必须有一个或多个与环境状态有关的目标。这样，为此而设计的公式当中必须包含三个方面——感知能力、动作和目标，这是最简单并缺一不可的可能形式。强化学习不同于监督学习（supervised learning），监督学习是目前在机器学习、统计模式识别和人工神经网络的研究领域中，最为广泛研究的一种学习。监督学习是从样例学习，而样例是由富有知识的外部监督者提供的。这是一种重要的学习方法，但是它不能单独地用于交互学习。在交互式问题中获得期望行为的样例通常是不切实际的，它们要求既是正确的，又能代表agent的所有场景，在这些场景中，agent采取动作。在一些我们希望学习能够带来利益的未知领域，agent必须能够从自身的经验中学习。一个在强化学习中存在，而在其他类型学习中不存在的挑战，是探索和利用之间的平衡。为了得到很多奖赏，强化学习agent必须选择它过去已经尝试过的在产生奖赏方面行之有效的动作。而为了发现这样的动作，它又必须去尝试以前没有选择过的动作。为了得到奖赏，agent必须利用它已经知道的信息，同时还必须进行探索，以便将来能选择到更好的动作。令人为难的是，单单采用探索或只有利用都会导致任务失败。agent必须尝试各种动作，并且渐渐趋近于那些表现最好的动作。在一个随机任务中，每个动作都必须被尝试多次才能获得对它的期望奖赏的可靠估计。多年来，数学家们一直在广泛研究探索—利用这一两难问题（见第2章）。现在，我们简单地认为，探索和利用的平衡问题在监督学习中，根本就不存在，正如它所定义的那样（样例学习阶段之后，就只有利用了）。强化学习的另一个关键特征，是它明确地提出整个问题是一个以目标为导向的agent与不确定的环境之间交互的问题。这种学习与许多其他方法相比，其他方法只考虑了子任务，而没有解决怎样可以把这些子任务整合到一个更大的框架中。例如，我们以前提过，许多与监督学习有关的机器学习研究都没有明确说明这样的能力最终将如何利用。其他研究者发展了一般目标规划的理论，但没有考虑在实时决策中如何进行规划，也没有考虑规划所必需的预测模型将从哪里来的问题。尽管这些方法已经产生了许多有用成果，但是，它们将重点放在孤立的子问题上的做法是一个严重的局限。强化学习采用相反的方式，它从一个完全的、交互的、目标搜索的agent开始。所有强化学习的agent都有明确的目标，能感知环境中的各个方面，并且能选择动作来影响环境。另外，通常我们从开始就假设：尽管agent面对的是一个它很不了解的环境，但它必须得有所动作。如果强化学习涉及到规划，它必须处理规划和实时动作选择之间的相互影

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

1_强化学习介绍翻译要点解析.docVIP