强化学习-01概述.pdfVIP

  • 43
  • 0
  • 约2.25千字
  • 约 7页
  • 2025-06-23 发布于北京
  • 举报

强化学习概念

01

HandwritingRecognition

/Contents

02强化学习过程

ProcessofReinforcementLearning

01

PARTONE强化学习概念

ReinforcementLearning

第一单元

强化学习概念

ReinforcementLearning

强化学习是机器学习中的一个领域,强调如何基于环境而行

动,以取得最大化的预期利益。其灵感来源于心理学中的行

为主义理论,即有机体如何在环境给予的奖励或惩罚的刺激

下,逐步形成对刺激的预期,产生能获得最大利益的习惯性

行为。

强化学习最早可以追溯到的条件反射实验,它从动

物行为研究和优化控制两个领域独立发展,最终经Bellman之

手将其抽象为决策过程(MarkovDecisionProcess,

MDP)

近年来强化学习的应用领域主要是游戏,如FlappyBird,

AlphaGo等

强化学习概念

ReinforcementLearning

强化学习所解决的问题的特点:

•智能体和环境之间不断进行交互

•搜索和试错

•延迟奖励(当前所做的动作可能很多步之后才会产生相应的结果)

目标:

•获取更多的累积奖励

•获得更可靠的估计

强化学习(ReinforcementLearning)是一个机器学习大家族中的分支,由于近些年来的技术突破,和深度学习

(DeepLearning)的整合,使得强化学习有了进一步的运用。比如让计算机学着玩游戏,AlphaGo挑战世界围棋高

手,都是强化学习在行的事。强化学习也是让你的程序从对当前环境完全陌生,成长为一个在环境中游刃有余

的高手。

强化学习基本模型及原理

Basicmodelandprinciple

强化学习把学习看作试探评价过程,Agent选择一个动作用于环境,环境接受该动作后状态发生变化,同时产

生一个强化信号(奖或惩)反馈给Agent,Agent根据强化信号和环境当前状态再选择下一个动作,选择的原则是

使受到正强化(奖)的概率增大。选择的动作不仅影响立即强化值,而且影响环境下一时刻的状态及最终的强化

值。

强化学习不同于连接主义学习中的监督学习,主要表现在教师信号上,强化学习中由环境提供的强化信号是

Agent对所产生动作的好坏作一种评价(通常为标量信号),而不是告诉Agent如何去产生正确的动作。由于外部

环境提供了很少的信息,Agent必须靠自身的经历进行学习。通过这种方式,Agent在行动一一评价的环境中

获得知识,改进行动方案以适应环境。

强化学习系统学习的目标是动态地调整参数,以达到强化信号最大。若已知r/A梯度信息,则可直接可以使用

监督学习算法。因为强化信号r与Agent产生的动作A没有明确的函数形式描述,所以梯度信息r/A无法得到。因

此,在强化学习系统中,需要某种随机单元,使用这种随机单元,Agent在可能动作空间中进行搜索并发现正

确的动作。

强化学习应用

ReinforcementLearning

强化学习(ReinforcementLearning)是一个机器学习大家族中的分支,由于近些年来的技术突破,和深度学习

(DeepLearni

文档评论(0)

1亿VIP精品文档

相关文档