强化学习-01概述.pdfVIP

下载本文档

43
0
约2.25千字
约 7页
2025-06-23 发布于北京
举报

强化学习-01概述.pdf

强化学习概念

HandwritingRecognition

/Contents

02强化学习过程

ProcessofReinforcementLearning

PARTONE强化学习概念

ReinforcementLearning

第一单元

强化学习概念

ReinforcementLearning

强化学习是机器学习中的一个领域，强调如何基于环境而行

动，以取得最大化的预期利益。其灵感来源于心理学中的行

为主义理论，即有机体如何在环境给予的奖励或惩罚的刺激

下，逐步形成对刺激的预期，产生能获得最大利益的习惯性

行为。

强化学习最早可以追溯到的条件反射实验，它从动

物行为研究和优化控制两个领域独立发展，最终经Bellman之

手将其抽象为决策过程(MarkovDecisionProcess，

MDP)

近年来强化学习的应用领域主要是游戏，如FlappyBird，

AlphaGo等

强化学习概念

ReinforcementLearning

强化学习所解决的问题的特点：

•智能体和环境之间不断进行交互

•搜索和试错

•延迟奖励（当前所做的动作可能很多步之后才会产生相应的结果）

目标：

•获取更多的累积奖励

•获得更可靠的估计

强化学习(ReinforcementLearning)是一个机器学习大家族中的分支,由于近些年来的技术突破,和深度学习

(DeepLearning)的整合,使得强化学习有了进一步的运用。比如让计算机学着玩游戏,AlphaGo挑战世界围棋高

手,都是强化学习在行的事。强化学习也是让你的程序从对当前环境完全陌生,成长为一个在环境中游刃有余

的高手。

强化学习基本模型及原理

Basicmodelandprinciple

强化学习把学习看作试探评价过程，Agent选择一个动作用于环境，环境接受该动作后状态发生变化，同时产

生一个强化信号(奖或惩)反馈给Agent，Agent根据强化信号和环境当前状态再选择下一个动作，选择的原则是

使受到正强化(奖)的概率增大。选择的动作不仅影响立即强化值，而且影响环境下一时刻的状态及最终的强化

值。

强化学习不同于连接主义学习中的监督学习，主要表现在教师信号上，强化学习中由环境提供的强化信号是

Agent对所产生动作的好坏作一种评价(通常为标量信号)，而不是告诉Agent如何去产生正确的动作。由于外部

环境提供了很少的信息，Agent必须靠自身的经历进行学习。通过这种方式，Agent在行动一一评价的环境中

获得知识，改进行动方案以适应环境。

强化学习系统学习的目标是动态地调整参数，以达到强化信号最大。若已知r/A梯度信息，则可直接可以使用

监督学习算法。因为强化信号r与Agent产生的动作A没有明确的函数形式描述，所以梯度信息r/A无法得到。因

此，在强化学习系统中，需要某种随机单元，使用这种随机单元，Agent在可能动作空间中进行搜索并发现正

确的动作。

强化学习应用

ReinforcementLearning

强化学习(ReinforcementLearning)是一个机器学习大家族中的分支,由于近些年来的技术突破,和深度学习

强化学习-01概述.pdfVIP

强化学习-01概述.pdf

您可能关注的文档

最近下载

文档评论（0）

1亿VIP精品文档

相关文档