第11章深度强化学习;
1.1结构和原理;
;
;
;
;11.1.2深度强化学习的原理
强化学习可以分为基于值函数的强化学习和基于策略的强化学习。在基于值函数的强化学习中,最常用的学习算法为Q学习算法(Qlearning)[2],其框架如图11.3所示。
图11.3Q学习算法框架;在图11.3中,智能体(agent)也称为“代理”;被控对象可被泛化为“环境”。Q学习算法的核心是智能体与环境
您可能关注的文档
- 深度学习简明教程 课件 第3章 反向传播算法.pptx
- 深度学习简明教程 课件 第5章 卷积神经网络(二).pptx
- 深度学习简明教程 课件 第6章 自编码网络.pptx
- 深度学习简明教程 课件 第7章 Hopfield神经网络.pptx
- 深度学习简明教程 课件 第8章 循环神经网络.pptx
- 深度学习简明教程 课件 第9章 残差网络.pptx
- 深度学习简明教程 课件 第10章 生成式对抗网络.pptx
- 深度学习简明教程 课件 第12章 图神经网络.pptx
- 深度学习简明教程 课件 第14章 Transformer网络.pptx
- 《电子商务物流配送与供应链管理(微课版)》课件 项目5--9 物流配送中心送货作业---电子商务物流配送发展新趋势 .pptx
- 《电子商务物流配送与供应链管理(微课版)》课件 项目1--4 电子商务物流配送合理化---电子商务物流配送中心理货作业.pptx
- 新思维-高中总复习-思想政治(配专题版) 课件 专题七 逻辑与思维(选择性必修3).pptx
- 新思维-高中总复习-思想政治(配专题版) 课件 专题四 法侓与生活(选择性必修2).pptx
- 新思维-高中总复习-思想政治(配专题版) 课件 专题五 马克思主义哲学及中国化时代化的理论成果(必修4 哲学).pptx
- 新思维-高中总复习-思想政治(配专题版)-作业 课件 专题七 逻辑与思维(选择性必修3).pptx
- 2026春《新思维·高中总复习化学(配提升版)》 二轮总复习-专题突破教用.pdf
最近下载
- 2025年度民主生活会围绕“五个带头”征求意见汇总.doc VIP
- GB 12023_塑料打包带最新标准规范.pdf VIP
- 2025年国考行测真题-常识判断真题(考试直接用)(夺冠)附答案详解.docx VIP
- 农村供水水质提升改造工程初步设计.docx
- 民事起诉状(机动车交通事故责任案件范文).docx VIP
- 配电柜维护操作规程及注意事项.docx VIP
- 2025年国考行测真题-常识判断真题(考试直接用)附答案详解【完整版】.docx VIP
- 无尘室管理规范作业指导书进入无尘室人员管理.pptx VIP
- 医科大学2020-2021第一学期期末考试 组织学与胚胎学(B)卷.docx VIP
- 乡村振兴中新乡贤文化的时代价值及培育路径研究.docx VIP
原创力文档

文档评论(0)