- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
会计学
1
强化学习简介
2
2
什么是机器学习( Machine Learning)?
机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。
1959年美国的塞缪尔设计了一个下棋程序,这个程序具有学习能力,它可以在不断的对弈中改善自己的棋艺。4年后,这个程序战胜了设计者本人。又过了3年,这个程序战胜了美国一个保持8年之久的常胜不败的冠军。
第1页/共48页
3
3
机器学习的分类?
机器学习
监督学习:计算机获得简单的输入给出期望的输出,过程是通过一个“训练模型”,学习通用的准则来从输入映射到输出。
无监督学习:没有给出标记用来学习算法,让它自己去发现输入的结构。无监督学习自己可以被当成一个目标或者一个实现结果的途径(特征学习)。
强化学习:一个计算机程序与动态环境交互,同时表现出确切目标(比如驾驶一辆交通工具或者玩一个游戏对抗一个对手)。这个程序的奖惩机制会作为反馈,实现它在问题领域中的导航。
第2页/共48页
4
强化学习(reinforcement learning)与监督学习、非监督学习的区别
没有监督者,只有奖励信号
反馈是延迟的,不是顺时的
时序性强,不适用于独立分布的数据
自治智能体(agent)的行为会影响后续信息的接收
第3页/共48页
5
思考:
五子棋:棋手通过数学公式计算,发现位置1比位置2价值大,这是强化学习吗?
这不叫强化学习,叫规划
如果通过几次尝试,走位置1比走位置2赢棋的可能性大,得出经验,则为强化学习
第4页/共48页
6
强化学习模型
几个定义
自治智能体Agent
学习的主体,如小猫、小狗、人、机器人、控制程序等
Agent的特点
1、主动对环境做出试探
2、环境对试探动作反馈是评价性的(好或坏)
3、在行动-评价的环境中获得知识,改进行动方案,达到预期目的
第5页/共48页
7
奖励信号(rewards)
奖励信号R是一个标量信号
表示agent在步骤T中所产生动作好坏
Agent的任务是最大化累积奖励信号
第6页/共48页
8
强化学习模型
第7页/共48页
9
例子
图中黄点是机器人,目的是走到绿色的方块reward+1000,黑色方块是墙壁,撞到reward-10,红色方块是陷阱,撞到reward-1000,其他reward+0
第8页/共48页
10
第9页/共48页
11
第10页/共48页
12
第11页/共48页
13
强化学习基本要素
强化学习基本要素及其关系
第12页/共48页
14
策略定义了agent在给定时间内的行为方式,一个策略就是从环境感知的状态到在这些状态中可采取动作的一个映射。
可能是一个查找表,也可能是一个函数
确定性策略:a = π(s)
随机策略: π(a ∣ s) = P[At = a ∣ St = s]
第13页/共48页
15
回报函数是强化学习问题中的目标,它把环境中感知到的状态映射为单独的一个奖赏
回报函数可以作为改变策略的标准
第14页/共48页
16
值函数:一个状态起agent所能积累的回报的总和。
在决策和评价决策中考虑最多的是值函数
第15页/共48页
17
环境模型模拟了环境的行为,即给定一个状态和动作,模型可以预测必定导致的下一个状态和下一个奖赏。模型一般用于规划
规划是算出来的,强化学习是试出来的
第16页/共48页
18
马尔可夫过程
马尔可夫奖励过程
马尔可夫决策过程
马尔科夫决策过程(MDP)
第17页/共48页
19
马尔科夫性:所谓马尔科夫性是指系统的下一个状态s(t+1)仅与当前状态s(t)有关,而与以前的状态无关。
马尔可夫过程
定义:状态s(t) 是马尔科夫的,当且仅当P [St+1∣St ] = P [St+1∣S1; :::; St ]
第18页/共48页
20
对于一个马尔科夫状态s和接下来的状态s ′, 状态转移概率定义为
通常马尔科夫过程是一个二元组(S,P),且满足:S是有限状态集合, P是状态转移概率。状态转移概率矩阵为:
第19页/共48页
21
第20页/共48页
22
以下状态序列称为马尔科夫链,假设从C1开始
第21页/共48页
23
第22页/共48页
24
对于游戏或者机器人,马尔科夫过程不足以描述其特点,因为不管是游戏还是机器人,他们都是通过动作与环境进行交互,并从环境中获得奖励,而马尔科夫过程中不存在动作和奖励。
第23页/共48页
25
马尔可夫奖励过程
马尔可夫奖励过程(MRP)是一种带有价值的马尔科夫链,由元组(S,P,R, γ )来表示
S为有限的状态集
P
原创力文档


文档评论(0)