MachineLearning16—Reinforcement.PDFVIP

  • 21
  • 0
  • 约1.01万字
  • 约 7页
  • 2017-06-18 发布于安徽
  • 举报
Machine Learning 16—Reinforcement Learning 之前我们学过3 个部分的内容:监督学习、学习理论、半监督学习。现在我们来学 习第四部分:自增强学习。 在监督学习中,给定了训练集以及对应的标签 ,算法要做的就是令预测输出尽可能 y 地接近 。在这种情况下,算法运行过程中对应的是有正确答案的。但有些时候,在对问题 y 作出决策或者控制时,我们很难提供一个确切的正确答案。比如在四足机器人行走编程中, 我们在一开始的时候对才去怎样的行动是“正确的”根本没有概念,我们只知道这是一个足部 调节的过程,因此在这里,监督学习算法并不适用。 在自增强学习框架中,算法的核心是奖励函数,区分出学习过程中哪些行为是“好”的, 哪些行为是“坏”的。对于四足机器人行走问题,当机器人能够向前进时,我们给予积极奖励; 当机器人向后退或者跌倒时候,我们给予消极惩罚。这样,有了奖励惩罚机制,在多次训练 后,机器人会越走越好。 自增强学习成功应用在了无人机飞行、机器人行走、市场决策选择等问题上。为了正式 地定义自增强学习,我们先来看马尔科夫决策过程(Markov Decision Proc

文档评论(0)

1亿VIP精品文档

相关文档