MachineLearning16—Reinforcement.PDFVIP

下载本文档

21
0
约1.01万字
约 7页
2017-06-18 发布于安徽
举报

MachineLearning16—Reinforcement.PDF

Machine Learning 16—Reinforcement Learning 之前我们学过3 个部分的内容：监督学习、学习理论、半监督学习。现在我们来学习第四部分：自增强学习。在监督学习中，给定了训练集以及对应的标签，算法要做的就是令预测输出尽可能 y 地接近。在这种情况下，算法运行过程中对应的是有正确答案的。但有些时候，在对问题 y 作出决策或者控制时，我们很难提供一个确切的正确答案。比如在四足机器人行走编程中，我们在一开始的时候对才去怎样的行动是“正确的”根本没有概念，我们只知道这是一个足部调节的过程，因此在这里，监督学习算法并不适用。在自增强学习框架中，算法的核心是奖励函数，区分出学习过程中哪些行为是“好”的，哪些行为是“坏”的。对于四足机器人行走问题，当机器人能够向前进时，我们给予积极奖励；当机器人向后退或者跌倒时候，我们给予消极惩罚。这样，有了奖励惩罚机制，在多次训练后，机器人会越走越好。自增强学习成功应用在了无人机飞行、机器人行走、市场决策选择等问题上。为了正式地定义自增强学习，我们先来看马尔科夫决策过程（Markov Decision Proc

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

MachineLearning16—Reinforcement.PDFVIP

MachineLearning16—Reinforcement.PDF

您可能关注的文档

最近下载

文档评论（0）

1亿VIP精品文档

相关文档