2.3强化学习课程.pptxVIP

下载本文档

0
0
约1.86千字
约 14页
2025-01-03 发布于陕西
举报
版权申诉

2.3强化学习课程.pptx

1、本文档共14页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

2.3强化学习

概述基本模型和原理网络模型设计2.3强化学习

2.3.1概述强化学习是从动物学习、参数扰动自适应控制等理论发展而来的，其基本原理如下：如果Agent的某个行为策略导致环境正的奖赏（强化信号），那么Agent以后产生这个行为策略的趋势便会加强。Agent的目标是在每个离散状态发现最优策略以使期望的折扣奖赏最大。

2.3.1概述按给定条件，强化学习可分为基于模型的强化学习（Model-BasedRL）和无模型强化学习（Model-FreeRL），以及主动强化学习（ActiveRL）和被动强化学习（PassiveRL）。强化学习的变体包括逆向强化学习、阶层强化学习和部分可观测系统的强化学习。求解强化学习问题所使用的算法可分为策略搜索算法和值函数（ValueFunction）算法两类。深度学习模型可以在强化学习中得到使用，形成深度强化学习。

2.3.1概述强化学习理论受到行为主义心理学启发，侧重在线学习并试图在探索-利用（ExplorationExploitation）间保持平衡。不同于监督学习和非监督学习，强化学习不要求预先给定任何数据，而是通过接收环境对动作的奖励（反馈）来获得学习信息并更新模型参数。

2.3.1概述强化学习问题在信息论、博弈论、自动控制等领域有得到讨论，被用于解释有限理性条件下的平衡态、设计推荐系统和机器人交互系统。一些复杂的强化学习算法在一定程度上具备解决复杂问题的通用智能，可以在围棋和电子游戏中达到人类水平。

2.3.2基本模型和原理强化学习把学习看作试探评价过程，Agent选择一个动作用于环境，环境接受该动作后其状态发生变化，同时产生一个强化信号（奖或惩）反馈给Agent，Agent根据强化信号和环境当前状态再选择下一个动作，选择的原则是使受到正强化（奖）的概率增大。Agent选择的动作不仅影响立即强化值，而且影响环境下一时刻的状态及最终的强化值。

2.3.2基本模型和原理强化学习不同于连接主义学习中的监督学习，主要表现在教师信号上，强化学习中由环境提供的强化信号是Agent对所产生动作的好坏进行一种评价（通常为标量信号），而不是告诉Agent如何产生正确的动作。由于外部环境提供了很少的信息，所以Agent必须靠自身的经历进行学习。通过这种方式，Agent在行动一一评价的环境中获得知识，改进行动方案以适应环境。

2.3.2基本模型和原理强化学习的目标是动态调整参数，以达到强化信号最大。若已知r/A梯度信息，则可直接使用监督学习算法。因为强化信号r与Agent产生的动作A没有明确的函数形式描述，所以梯度信息r/A无法得到。因此，在强化学习系统中，需要某种随机单元，使用这种随机单元，Agent在可能动作空间中进行搜索并发现正确的动作，如图所示。

2.3.3网络模型设计每一个自主体由两个神经网络模块组成，即行动网络和评估网络。行动网络是根据当前的状态而决定下一个时刻施加到环境上的最好动作。

2.3.3网络模型设计对于行动网络，强化学习算法允许其输出节点进行随机搜索，有了来自评估网络的内部强化信号后，行动网络的输出节点即可有效地完成随机搜索并且大大提高选择好的动作的可能性，同时可以在线训练整个行动网络。用一个辅助网络来为环境建模，评估网络根据当前的状态和模拟环境预测标量值的外部强化信号，这样它可单步和多步预报当前由行动网络施加到环境上的动作强化信号，可以提前向动作网络提供有关候选动作的强化信号，以及更多的奖惩信息（内部强化信号），以减少不确定性并提高学习速度。

2.3.3网络模型设计强化学习对评估网络使用时序差分（TemporalDifference，TD）预测方法和反向传播（Backpropagation，BP）算法进行学习，而对行动网络进行遗传操作，使用内部强化信号作为行动网络的适应度函数。

2.3.3网络模型设计网络运算分成两个部分，即前向信号计算和遗传强化计算。在前向信号计算时，对评估网络采用时序差分预测方法，由评估网络对环境建模，可以进行外部强化信号的多步预测，评估网络提供更有效的内部强化信号给行动网络，使它产生更恰当的行动，内部强化信号使行动网络、评估网络在每一步都可以进行学习，而不必等待外部强化信号的到来，从而大大加速了两个网络的学习，如图所示。