强化学习 课件全套 余欣航 第1--8章 强化学习概述--- 基于模型的强化学习基础.pptx

强化学习 课件全套 余欣航 第1--8章 强化学习概述--- 基于模型的强化学习基础.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

第一章强化学习概述

目录

·马尔可夫决策过程(MDP)

.MDP的分类

●强化学习

●强化学习的应用

机器学习的分类

●有监督学习(supervisedlearning)

●数据集中的样本带有标签,有明确目标

●回归和分类

●无监督学习(unsupervisedlearning)

●数据集中的样本没有标签

●聚类、降维、概率密度估计、生成模型构建

●强化学习(reinforcementlearning)

●序列决策的过程,通过过程模拟和观察来不断学习,提高决策能力

·例如:AlphaGo

·agent:智能体

·environment:环境

·state:状态,St

·action:动作,At

·reward:奖励,Rt

强化学习的元素

智能体

action

A,

rewardR₂

state

s,

环境

时间序列

·按时间顺序排列的一组随机变量X₁,X₂,…,Xt,…表示一个随机事件的时间序列,简记为{Xt,t∈T}或{Xt}

·时间序列可以看作是离散时间的随机过程

最低

716858仓差

+42.857%

836内盘偷格

3079.0

30000

3079.0

3000.0

30790

3080.0

3079.0

3000.0

3079.0

习吕电3(LMAI

30810

昨收开盘

祷仓

委比外盘伦款

11:34

11:34

11.34

11:34

11:34

11:34

11:34

11:34

ShareofglobalGDP,1820-2030

—China一USA—Europe

马尔可夫过程

·马尔可夫性质是指一个随机过程在给定现在状态及所有过去状态的情况下,其未来状态的条件概率分布仅依赖于当前状态,即:

P(Xt+1=x|Xt=Xt,…,X₁=x₁)=P(Xt+1=x|Xt=xt)

·马尔可夫过程是具备马尔可夫性质的随机过程

马尔可夫过程

·Xt只和Xt-1有关系,和之前的Xt-2,Xt-3,…,X₁都没有关系?

X₁→X₂→X₃→X₄→.

X₁没有直接影响X₃,通过X₂间接影响X₃

·求Xt的数字特征,只需用到过去已知的距离Xt最近的信息,例如:

E(X16|X₂=x₂,X₅=x5,X₉=xg)=E(X16|X₉=x₉)

马尔可夫过程

·若用马尔可夫过程来描述一个人上学的经历:

·如果一个人就读于重点中学,那么他考上重点大学的概率也比较大

·如果拥有重点大学的学历,那么找到一份好工作的概率也比较大

普通大学

好工作

马尔可夫决策过程

·在读于普通中学的前提下:

·如果很努力学习,则考取重点大学的概率就会相对变高

·如果沉迷于打游戏、不花心思到学习上,那么考取重点大学的概率就会变得很低

·站在自身的角度来看待求学的经历,考取重点大学的概率并不只是“客观的规律”决定的,也有“主观能动性”的成分

·马尔可夫决策过程(MarkovDecisionProcess,MDP)还需要定义动作与奖励

·若将奖励定义为求学经历中获得的“幸福感”:

·在中学采取“努力学习”的动作,可能因为玩的时间更少,而只有较低的“幸福感”,但这帮助我们考上了更好的大学,这个更好的状态有助于未来获得更多的“幸福感”

·要在“先苦后甜“与“及时行乐”中进行取舍,选择正确的动作方式,以获得最幸福的人生

马尔可夫决策过程

下一个状态

·S表示状态空间,是对环境的描述,S={S1,S₂,S₃,…3,可能是离散或连续的

·A表示动作空间,是智能体决策的结果,A={a₁,a₂,a₃,….,可能是离散或连续的

·P表示状态之间的转移概率,状态s转移到状态s的概率记为Pss,=P(St+1=s|St=s,At=a)

·R表示奖励,是智能体给出动作后环境的反馈,t时刻的奖励Rt是t时刻状态st和动作at、t+1时刻状态st+1的标量函数,即

Rt=R(St,at,St+1)

·策略是给定状态s下,动作a的条件概率分布,是“状态→动作”的映射,即π(a|s)=P(At=a|St=s)

MDP的定义

·一般习惯将MDP记作四元组(S,A,P,R):

action

A,

rewardR₂

state

s,

目标:最

文档评论(0)

阿弥陀佛 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档