基于加权密集连接卷积网络的深度强化学习方法.pptxVIP

基于加权密集连接卷积网络的深度强化学习方法.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

基于加权密集连接卷积网络的深度强化学习方法

-CONTENTS目录背景1组成结构及重要参数2网络模型的具体实现3仿真实验与分析4总结5

背景1

背景随着深度学习技术的突破,强化学习得到了较大的发展1、传统的强化学习:传统的强化学习在一些简单的控制问题上有着很出色的表现,但在处理大规模、高维度的状态空间时存在困难2、深度学习和强化学习相结合:此方法通过深度学习来自动学习大规模的输入数据的抽象表征,并以此表征为依据进行自我激励,从而弥补传统强化学习的不足。但众所周知,卷积神经网络为了提高效果通常采取的方法就是使网络变宽或者变深,随着网络层数的加深,网络的节点数增加,训练的计算量会几何倍地增加,同时网络在训练过程中梯度会逐渐减小甚至消失,从而减缓收敛3、深度强化学习和密集连接卷积网络相结合:针对深度强化学习存在的问题,论文提出了将深度强化学习和密集连接卷积网络进行结合的方法,并在此基础上提出了一种加权密集连接的方法,以便对输入图像进行更深入有效的信息提取,达到改善训练效果的目的

组成结构及重要参数2

组成结构及重要参数1、网络结构o密集连接的网络结构主要由卷积层、非线性激活函数(通常使用ReLU)、批量归一化(BatchNormalization,BN)和过渡层组成o每层特征图都要经过批量归一化、ReLU激活和卷积操作,其中1×1卷积是一个瓶颈层,可以减少输入特征图的数量来提高计算效率o为了让特征能够反复利用,在跨层连接时特征图采用并联的方式,即网络每一层的输入包括前面所有层的输出

组成结构及重要参数2、增长率(GrowthRate)o超参数k称为网络的增长率,增长率越大,网络中流通的信息量越大,提取特征的能力就越强,同时也会相应地增加模型的计算量o由于采用密集连接的方式,如果每层产生k个特征图,则它将在第i层输入k?+k(i-1)个特征图,其中k?是输入层的通道数

组成结构及重要参数3、过渡层(TransitionLayer)o由于网络每层都会接收前面所有层的特征作为输入,采用并联特征图会使得网络层数不断加深,因此在每个密集连接块后面会有一个过渡层进行降维操作o过渡层中首先使用一个1×1的卷积层将特征图的深度压缩为当前输入的θ倍,其中θ(0θ≤1)是压缩因子。然后进行池化操作降低每张特征图的维度

组成结构及重要参数4、加权密集连接(WeightedDenseConnection)o为了进一步优化密集连接的性能,可以采用加权密集连接o在加权密集连接中,对每一层特征图的权重进行设定,通常将当前层的权重设为1,而将前面所有层的权重设为ω(0ω1)o在跨层连接时,当前层将起到主要作用,而前面所有层将起到辅助作用o如果在一个密集连接块中当前层前面共有I层,则第i层的权重将根据公式进行计算

组成结构及重要参数密集连接卷积的特性o反向误差传播过程中,每一层都会接收到之后所有层传递的梯度信号。这种设计方式在一定程度上减轻了训练过程的梯度消失问题o网络结构中大量特征的复用使得通过使用少量卷积核就可以生成大量的特征,从而降低了模型的计算量,同时模型的尺寸也被控制得比较小

网络模型的具体实现3

网络模型的具体实现该网络模型分为三个主要部分:加权密集连接块(核心)、过渡层和全连接层1、加权密集连接块用于实现特征的提取和复用。论文将加权密集连接卷积分割成三块,每块分别包含不同数量的卷积层,以更好地减少特征维度的增加。这样的设计能够有效地控制特征维度的增长,提高网络的性能和效率。每经过一层特征维度就会增加k,其中k是网络的增长率,设置为32

网络模型的具体实现2、输入一张当前状态的截图,经过一层常规的卷积操作后,再进行ReLU激活和最大池化操作3、特征图进入第一个加权密集连接块,该块内部有6层4、紧随加权密集连接块之后的是过渡层,该层包括一个1×1卷积层和一个2×2的平均池化层。过渡层的目的是减少特征图数量以及减小特征图的尺寸,本文中压缩因子设为θ=0.5。步长为2的池化层使得特征图大小压缩为原来的一半,经过过渡层压缩后特征图的数量和大小都变为之前的1/2

网络模型的具体实现5、加权密集连接块和过渡层交替连接,第二个加权密集连接块内部设为12层,第三个设为24层。当经过第三个加权密集连接块后每张特征图的尺寸已经变得很小6、此时进行全局池化操作将每张特征图压缩为1x1大小,此时所有特征图组成一维数据,经过两层全连接输出每个动作对应的Q值

网络模型的具体实现通过以上实现过程,加权密集连接卷积网络能够有效地减少特征维度的增长,提高网络的性能和效率。同时,该网络模型还具有较好的泛化能力和鲁棒性,能够应用于不同环境和任务中

仿真实验与分析4

仿真实验与分析通过训练GridWorld的结果对比基于加权密集连接卷积网络强化学习和传统深度

文档评论(0)

周做做的文档合集 + 关注
实名认证
文档贡献者

很高兴来这里认识你们

1亿VIP精品文档

相关文档