- 21
- 0
- 约1.01万字
- 约 7页
- 2017-06-18 发布于安徽
- 举报
Machine Learning 16—Reinforcement Learning
之前我们学过3 个部分的内容:监督学习、学习理论、半监督学习。现在我们来学
习第四部分:自增强学习。
在监督学习中,给定了训练集以及对应的标签 ,算法要做的就是令预测输出尽可能
y
地接近 。在这种情况下,算法运行过程中对应的是有正确答案的。但有些时候,在对问题
y
作出决策或者控制时,我们很难提供一个确切的正确答案。比如在四足机器人行走编程中,
我们在一开始的时候对才去怎样的行动是“正确的”根本没有概念,我们只知道这是一个足部
调节的过程,因此在这里,监督学习算法并不适用。
在自增强学习框架中,算法的核心是奖励函数,区分出学习过程中哪些行为是“好”的,
哪些行为是“坏”的。对于四足机器人行走问题,当机器人能够向前进时,我们给予积极奖励;
当机器人向后退或者跌倒时候,我们给予消极惩罚。这样,有了奖励惩罚机制,在多次训练
后,机器人会越走越好。
自增强学习成功应用在了无人机飞行、机器人行走、市场决策选择等问题上。为了正式
地定义自增强学习,我们先来看马尔科夫决策过程(Markov Decision Proc
您可能关注的文档
- 1、【2012烟台】如图,在平面直角坐标系中,已知矩形.doc
- 1.某一物体的质量为m,它运动时的能量E与它的运动速度v之.ppt
- 10岁女孩骑电动车撞上大货车.PDF
- 21蹦床网上项目.PDF
- 百万高球盛宴袁打造钻石人生.PDF
- 按销售收入计,集团是占中国市场份额最.PDF
- 《空气动力学学报》第34卷2016年总目次.PDF
- 巴州地区局地暴雪过程诊断分析.PDF
- !#!年$%月$&日星期五.PDF
- 策划曾家辉责任编辑梁小岛版面设计谢锦辉.PDF
- 专项十三 复合句(含答案) 2026年中考人教版英语语法专项复习.doc.docx
- 专项十四 There be句型和主谓一致(含答案) 2026年中考人教版英语语法专项复习.doc.docx
- 专项14 构词法 学案(含答案)2025年中考人教版英语语法专项复习.doc.docx
- 静脉肾盂造影结石梗阻评估.ppt
- 《假期实践活动》教案-2025-2026学年冀教版(新教材)小学数学二年级下册.docx
- 老年结石病合并慢病综合诊疗.ppt
- 鹿角形肾结石复杂手术治疗.ppt
- 经皮肾镜超声碎石清石术.ppt
- 《参观爱国主义教育基地》教案-2025-2026学年冀教版(新教材)小学数学二年级下册.docx
- 《生活中的大数:整理与复习》教案(2课时)-2025-2026学年冀教版(新教材)小学数学二年级下册.docx
原创力文档

文档评论(0)