- 137
- 0
- 约1.81万字
- 约 15页
- 2016-04-28 发布于湖北
- 举报
第1章 简介
我们在考虑学习时,可能最先想到的是通过与环境的交互来进行学习。一个婴儿在玩耍的时候,不存在明确的某位老师来教他如何晃动手臂或向四周张望,但是确实通过感觉器官与环境直接联系。运用这种联系能够产生一些关于起因和结果、动作的后果以及为达到目的而采取的措施等有价值的信息。在我们的生活中,这样的交互无疑是我们获得关于环境与自身的知识的主要源泉。无论我们在学习开车或是进行谈话时,我们都能准确地意识到环境对我们所做事情的反应,并且我们也会试着用自己的行为来影响环境。从交互中学习几乎是所有关于学习和智能的理论的最基本思想。
在本书,我们探讨一种从交互中进行学习的计算型(computational)方法。我们不是直接探索人和动物如何学习的理论,而是研究理想化的学习场景并评价各种学习方法的效果。也就是说,我们采用的是人工智能研究者或工程师的视线与角度。我们探讨一种能够让机器解决具有科学或经济价值的学习问题的设计方案,通过数学分析或计算实验来评估这些设计方案。这种方法称为强化学习(reinforcement learning),与其他机器学习方法不同的是,它着重于从交互中进行以目标为导向的学习。
1.1强化学习
强化学习就是学习如何将场景(环境状态)映射到动作,以获取最大的、数值的、奖赏信号。与大多数机器学习方法一样,学习者不被告知应该采用哪个动作,而是通过不断地尝试来发现能获得最大奖赏的动作。在最有趣且最具挑战性的例子中,动作不只影响直接奖赏,而且也会影响下一场景,以至于所有的后续奖赏。这样的两个特征:试错搜索和延迟奖赏,是强化学习的最重要特征。
强化学习并不是通过描述它的学习方法而定义的,而是通过描述一个学习问题来定义的。任何适合解决这一学习问题的方法,我们都认为是强化学习方法。虽然要到第3章,我们才能根据马尔可夫决策过程的最优控制理论来完整地描述一个强化学习问题,但是,对于通过与环境的交互而达到目标的学习中的agent,一些基本的概念就能够说明真实问题的最重要的基本思想。显然,这样的agent必须能够在一定程度上感知环境的状态,并且必须能够采取动作,所采取的动作,又会影响环境。这个agent还必须有一个或多个与环境状态有关的目标。这样,为此而设计的公式当中必须包含三个方面——感知能力、动作和目标,这是最简单并缺一不可的可能形式。
强化学习不同于监督学习(supervised learning),监督学习是目前在机器学习、统计模式识别和人工神经网络的研究领域中,最为广泛研究的一种学习。监督学习是从样例学习,而样例是由富有知识的外部监督者提供的。这是一种重要的学习方法,但是它不能单独地用于交互学习。在交互式问题中获得期望行为的样例通常是不切实际的,它们要求既是正确的,又能代表agent的所有场景,在这些场景中,agent采取动作。在一些我们希望学习能够带来利益的未知领域,agent必须能够从自身的经验中学习。
一个在强化学习中存在,而在其他类型学习中不存在的挑战,是探索和利用之间的平衡。为了得到很多奖赏,强化学习agent必须选择它过去已经尝试过的在产生奖赏方面行之有效的动作。而为了发现这样的动作,它又必须去尝试以前没有选择过的动作。为了得到奖赏,agent必须利用它已经知道的信息,同时还必须进行探索,以便将来能选择到更好的动作。令人为难的是,单单采用探索或只有利用都会导致任务失败。agent必须尝试各种动作,并且渐渐趋近于那些表现最好的动作。在一个随机任务中,每个动作都必须被尝试多次才能获得对它的期望奖赏的可靠估计。多年来,数学家们一直在广泛研究探索—利用这一两难问题(见第2章)。现在,我们简单地认为,探索和利用的平衡问题在监督学习中,根本就不存在,正如它所定义的那样(样例学习阶段之后,就只有利用了)。
强化学习的另一个关键特征,是它明确地提出整个问题是一个以目标为导向的agent与不确定的环境之间交互的问题。这种学习与许多其他方法相比,其他方法只考虑了子任务,而没有解决怎样可以把这些子任务整合到一个更大的框架中。例如,我们以前提过,许多与监督学习有关的机器学习研究都没有明确说明这样的能力最终将如何利用。其他研究者发展了一般目标规划的理论,但没有考虑在实时决策中如何进行规划,也没有考虑规划所必需的预测模型将从哪里来的问题。尽管这些方法已经产生了许多有用成果,但是,它们将重点放在孤立的子问题上的做法是一个严重的局限。
强化学习采用相反的方式,它从一个完全的、交互的、目标搜索的agent开始。所有强化学习的agent都有明确的目标,能感知环境中的各个方面,并且能选择动作来影响环境。另外,通常我们从开始就假设:尽管agent面对的是一个它很不了解的环境,但它必须得有所动作。如果强化学习涉及到规划,它必须处理规划和实时动作选择之间的相互影
您可能关注的文档
- 【课堂设计】2014-2015学年高二(语文)语文版《中国现当代散文鉴赏》学案:第18课老家的树要点解析.doc
- 2015年湖南省中考化学重难点集训试卷要点解析.doc
- 【课堂新坐标,同步备课参考】2013-2014学年高中化学(人教版)必修2综合检测3第3章+有机化合物要点解析.doc
- 2015年湖南省株洲市中考生物试题(版)要点解析.doc
- 2015年护理岗位训练护理知识100题要点解析.doc
- 【免疫】名词解释及问答总结要点解析.doc
- 2015年护理质量考评标准要点解析.doc
- 【名师伴你行】2015届高考生物二轮复习专题提能专训(16-5)遗传的物质基础要点解析.doc
- 2015年护士执业资格考试(专业务实)要点解析.doc
- 【名师伴你行】2015届高考政治二轮复习专题突破题能专训:专题12唯物史观和价值观Word版含要点解析.doc
- 2025年全国演出经纪人员资格认定考试试卷带答案(研优卷).docx
- 2025年全国演出经纪人员资格认定考试试卷完整版.docx
- 2025年全国演出经纪人员资格认定考试试题库及完整答案.docx
- 2025年全国演出经纪人员资格认定考试试卷完美版.docx
- 2025年全国演出经纪人员资格认定考试试卷含答案(实用).docx
- 2025年全国演出经纪人员资格认定考试试卷及答案(各地真题).docx
- 2025年下半年内江市部分事业单位公开考试招聘工作人员(240人)备考题库附答案.docx
- 2025年全国演出经纪人员资格认定考试试卷及答案1套.docx
- 2025年下半年四川成都市郫都区面向社会引进公共类事业单位人员2人备考题库最新.docx
- 2025年下半年内江市部分事业单位公开考试招聘工作人员(240人)备考题库附答案.docx
最近下载
- Young Sheldon《小谢尔顿》第七季第六集完整中英文对照剧本.docx VIP
- 量化经典高收益量化策略.ppt VIP
- Young Sheldon《小谢尔顿》第七季第五集完整中英文对照剧本.docx VIP
- Young Sheldon《小谢尔顿》第七季第四集完整中英文对照剧本.docx VIP
- Young Sheldon《小谢尔顿》第七季第三集完整中英文对照剧本.docx VIP
- 连锁餐饮企业顾客满意度研究—以广州市点都德为例.doc VIP
- 高中化学必修第二册第六章 化学反应与能量.pdf VIP
- Young Sheldon《小谢尔顿》第七季第二集完整中英文对照剧本.docx VIP
- 合理用药指南.pptx VIP
- Young Sheldon《小谢尔顿》第七季第一集完整中英文对照剧本.docx VIP
原创力文档

文档评论(0)