- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
4-9 再励学习与神经控制 再励(强化)学习是 模拟人适应环境学习过程的一种机器学习模型,在神经网络与 神经控 制中,得到应用。 神经网络三种学习方式: (1)有导师的学习,虽然学习效率高,但在控制系统中,导师信 号不 易直接获得; (2)无导师的学习,虽不需导师信号,但因学习效率低,而很难 实际 应用; (3)再励学习是介于上述二者间的学习方式,是智能系统从环境 到行 为映射的学习,以使强化(奖励)信号值最大。 4-9-1 再励学习原理 4-9-2 再励学习算法 2. 评价预测学习规则 4-9-3 再励学习神经控制 再励学习用于神经控制的基本思想: 不需已知对象模型,且没有足够知识的情况下,通过学习机制 对环境的交互,评价控制的优劣,用‘奖或惩’算法训练控制器, 使之对复杂的非线性、不确定、不确知系统,达到有效的控制。 阐述基于评价预测的再励学习神经控制。 1. TD法 2. 动作—评价学习(Actor-Critic Learning) * 再励学习与有导师学习不同点是导师信号 前者只需要系统(环境)的标量评价值作再励信号,它是对系统动作 的一种评价。因外部环境提供的信息少,再励学习系统必需靠自身的 经历学习,在动作――评价的环境中获得知识、改进行动方案以适应环境。 这对于复杂的非线性、不确定性系统在不确定的外部环境中工 作,以实现有效的控制,是非常有利的。 再励学习在控制中应用主要在两方面:倒立摆控制;智能机器人控制。 *
文档评论(0)