深度学习简明教程 课件 第11章 深度强化学习.pptx

深度学习简明教程 课件 第11章 深度强化学习.pptx

第11章深度强化学习;

1.1结构和原理;

;

;

;

;11.1.2深度强化学习的原理

强化学习可以分为基于值函数的强化学习和基于策略的强化学习。在基于值函数的强化学习中,最常用的学习算法为Q学习算法(Qlearning)[2],其框架如图11.3所示。

图11.3Q学习算法框架;在图11.3中,智能体(agent)也称为“代理”;被控对象可被泛化为“环境”。Q学习算法的核心是智能体与环境

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档