强化学习备课讲稿.pptVIP

  • 2
  • 0
  • 约1.12千字
  • 约 92页
  • 2020-10-31 发布于福建
  • 举报
强化学习(1) 引言 在连接主义学习中,在学习的方式有三种:非监督 学习( unsupervised learning)、监督学习( supervised leaning)和强化学习 监督学习也称为有导师的学习,需要外界存在一个 教师”对给定输入提供应有的输出结果,学习的目的 是减少系统产生的实际输出和预期输出之间的误差,所 产生的误差反馈给系统来指导学习。 非监督学习也称为无导师的学习。它是指系统不存 在外部教师指导的情形下构建其内部表征。学习完全是 开环的。 强化学习( reinforcement learning)又称为再励学习 是指从环境状态到行为映射的学习,以使系统行为从 环境中获得的累积奖励值最大的一种机器学习方法,智 能控制机器人及分析预测等领域有许多应用。 强化学习的研究发展史可分为两个阶段。第一阶段是 50年代至60年代,为强化学习的形成阶段。 1954年, Minsky在他的博士论文中实现了计算上的试 错学习,并首次提出“强化学习”术语。最有影响的是 他的论文“通往人工智能的阶梯”( Minsky,1961) 这篇文章讨论了有关强化学习的几个问题,其中包括他 称为信誉分配的问题:怎样在许多的、与产生成功结果 有关的各个决策中分配信誉。 后来, Farley和 Clark的兴趣从试错学习转向泛化和模 式识别,也就是从强化学习转向监督学习,这引起了几种学 习方法之间的关系混乱。由于这些混乱原因,使得真正的 试错学习在二十世纪六、七十年代研究得很少。 强化学习的发展历程 1956 Bellman提出了动态规划方法 1977 Werbos提出自适应动态规划方法 1988 Sutton提出了TD算法 1992 Watkins提出了Q学习算法 1994 Rummery等提出了 SARSA学习算法 1996 Bertsekas等提出了解决随机过程优化控制的神 经动态规划方法 l999 Thrun提出了部分可观测马尔科夫决策过程中的 蒙特卡罗方法 2006 Kocsis等提出了置信上限树算法 2009 Lewis等提出了反馈控制自适应动态规划算法 2014 Silver等提出确定性策略梯度算法 国内发展现状 强化学习在国内处于发展阶段,并取得一定成绩。 杨璐采用强化学习中的TD算法对经济领域的问题进行 预测;蒋国飞将Q学习应用在倒立摆控制系统,并通过 对连续空间的离散化,证明了在满足一定条件下的Q学 习的收敛性;张健沛等对连续动作的强化学习方法进行 了研究,并将其应用到机器人避障行为中

文档评论(0)

1亿VIP精品文档

相关文档