再励学习与神经控制方案.ppt

4-9 再励学习与神经控制 再励(强化)学习是 模拟人适应环境学习过程的一种机器学习模型,在神经网络与 神经控 制中,得到应用。 神经网络三种学习方式: (1)有导师的学习,虽然学习效率高,但在控制系统中,导师信 号不 易直接获得; (2)无导师的学习,虽不需导师信号,但因学习效率低,而很难 实际 应用; (3)再励学习是介于上述二者间的学习方式,是智能系统从环境 到行 为映射的学习,以使强化(奖励)信号值最大。 4-9-1 再励学习原理 4-9-2 再励学习算法 2. 评价预测学习规则 4-9-3 再励学习神经控制 再励学习用于神经控制的基本思想: 不需已知对象模型,且没有足够知识的情况下,通过学习机制 对环境的交互,评价控制的优劣,用‘奖或惩’算法训练控制器, 使之对复杂的非线性、不确定、不确知系统,达到有效的控制。 阐述基于评价预测的再励学习神经控制。 1. TD法 2. 动作—评价学习(Actor-Critic Learning) * 再励学习与有导师学习不同点是导师信号 前者只需要系统(环境)的标

文档评论(0)

1亿VIP精品文档

相关文档