再励学习与神经控制.ppt

下载文档 降价啦

2
0
约小于1千字
约 11页
2016-12-18 发布于湖北
举报
版权申诉
保障服务

再励学习与神经控制.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

4-9 再励学习与神经控制再励（强化）学习是模拟人适应环境学习过程的一种机器学习模型，在神经网络与神经控制中，得到应用。神经网络三种学习方式：（1）有导师的学习，虽然学习效率高，但在控制系统中，导师信号不易直接获得；（2）无导师的学习，虽不需导师信号，但因学习效率低，而很难实际应用；（3）再励学习是介于上述二者间的学习方式，是智能系统从环境到行为映射的学习，以使强化（奖励）信号值最大。 4-9-1 再励学习原理 4-9-2 再励学习算法 2. 评价预测学习规则 4-9-3 再励学习神经控制再励学习用于神经控制的基本思想：不需已知对象模型，且没有足够知识的情况下，通过学习机制对环境的交互，评价控制的优劣，用‘奖或惩’算法训练控制器，使之对复杂的非线性、不确定、不确知系统，达到有效的控制。阐述基于评价预测的再励学习神经控制。 1. TD法 2. 动作—评价学习（Actor-Critic Learning） * 再励学习与有导师学习不同点是导师信号前者只需要系统（环境）的标量评价值作再励信号，它是对系统动作的一种评价。因外部环境提供的信息少，再励学习系统必需靠自身的经历学习，在动作――评价的环境中获得知识、改进行动方案以适应环境。这对于复杂的非线性、不确定性系统在不确定的外部环境中工作，以实现有效的控制，是非常有利的。再励学习在控制中应用主要在两方面：倒立摆控制；智能机器人控制。 *