- 2
- 0
- 约1.12千字
- 约 92页
- 2020-10-31 发布于福建
- 举报
强化学习(1)
引言
在连接主义学习中,在学习的方式有三种:非监督
学习( unsupervised learning)、监督学习( supervised
leaning)和强化学习
监督学习也称为有导师的学习,需要外界存在一个
教师”对给定输入提供应有的输出结果,学习的目的
是减少系统产生的实际输出和预期输出之间的误差,所
产生的误差反馈给系统来指导学习。
非监督学习也称为无导师的学习。它是指系统不存
在外部教师指导的情形下构建其内部表征。学习完全是
开环的。
强化学习( reinforcement learning)又称为再励学习
是指从环境状态到行为映射的学习,以使系统行为从
环境中获得的累积奖励值最大的一种机器学习方法,智
能控制机器人及分析预测等领域有许多应用。
强化学习的研究发展史可分为两个阶段。第一阶段是
50年代至60年代,为强化学习的形成阶段。
1954年, Minsky在他的博士论文中实现了计算上的试
错学习,并首次提出“强化学习”术语。最有影响的是
他的论文“通往人工智能的阶梯”( Minsky,1961)
这篇文章讨论了有关强化学习的几个问题,其中包括他
称为信誉分配的问题:怎样在许多的、与产生成功结果
有关的各个决策中分配信誉。
后来, Farley和 Clark的兴趣从试错学习转向泛化和模
式识别,也就是从强化学习转向监督学习,这引起了几种学
习方法之间的关系混乱。由于这些混乱原因,使得真正的
试错学习在二十世纪六、七十年代研究得很少。
强化学习的发展历程
1956 Bellman提出了动态规划方法
1977 Werbos提出自适应动态规划方法
1988 Sutton提出了TD算法
1992 Watkins提出了Q学习算法
1994 Rummery等提出了 SARSA学习算法
1996 Bertsekas等提出了解决随机过程优化控制的神
经动态规划方法
l999 Thrun提出了部分可观测马尔科夫决策过程中的
蒙特卡罗方法
2006 Kocsis等提出了置信上限树算法
2009 Lewis等提出了反馈控制自适应动态规划算法
2014 Silver等提出确定性策略梯度算法
国内发展现状
强化学习在国内处于发展阶段,并取得一定成绩。
杨璐采用强化学习中的TD算法对经济领域的问题进行
预测;蒋国飞将Q学习应用在倒立摆控制系统,并通过
对连续空间的离散化,证明了在满足一定条件下的Q学
习的收敛性;张健沛等对连续动作的强化学习方法进行
了研究,并将其应用到机器人避障行为中
您可能关注的文档
- 开展数字化实验的研究促进学生成长成才教育装备.ppt
- 开式齿轮润滑...ppt
- 开封北京天津潍坊南通阳江并称中国六大传统.ppt
- 开心一刻暴强谐音学英语.ppt
- 开平板厂开平线.ppt
- 开式齿轮润滑的资料.ppt
- 开式齿轮之润滑和维护.ppt
- 开放图书馆 主题班会.ppt
- 开放基于PowerPC架构CPU设计平台及应用环境.ppt
- 开户操作规程8月.ppt
- 2026江西南昌安义县幼儿园柏仕名邸分园春季教职工招聘3人备考题库及参考答案详解1套.docx
- 2026江西南昌安义县幼儿园柏仕名邸分园春季教职工招聘3人备考题库及参考答案详解1套.docx
- 2026江西南昌安义县龙津中心幼儿园保健医生招聘1人备考试题附答案详解.docx
- 2026江西南昌安义县社会福利院招聘失能照护护理员1人备考试题附答案详解.docx
- 2026江西南昌安义县幼儿园柏仕名邸分园春季教职工招聘3人备考题库带答案详解.docx
- 2026江西南昌安义县幼儿园柏仕名邸分园春季教职工招聘3人备考试题附答案详解.docx
- 小学消防考核试题及答案大全.doc
- 2026江西南昌大学高层次人才招聘64人备考题库附答案详解.docx
- 央企竞聘笔试题目及答案.doc
- 2026江西南昌大学高层次人才招聘64人备考试题附答案详解.docx
原创力文档

文档评论(0)