《深度学习》课件第4章-循环神经网络.pptx

下载文档

3
0
约3.43千字
约 35页
2025-04-10 发布于山东
举报
版权申诉
保障服务

《深度学习》课件第4章-循环神经网络.pptx

1、本文档共35页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

4循环神经网络

目录|CONTENTS循环神经网络结构1循环神经网络的训练2双向循环神经网络与深度循环神经网络3长短期记忆网络4门控循环单元567递归神经网络双向长短期记忆网络与双向门控循环单元

循环神经网络（recurrentneuralnetworks，RNN）是深度学习中的一个重要分支，它处理历史数据和对记忆进行建模，并随时间动态调整自身的状态，通常适用于处理时间、空间序列上有强关联的信息。从生物神经学角度，循环神经网络可以认为是对生物神经系统环式链接（recurrentconnection）的简单模拟，而这种环式链接在新大脑皮质中是普遍存在的。循环神经网络求解损失函数的参数梯度有很多种算法，其中常用的是时间反向传播算法（backpropagationthroughtime,BPTT）。梯度传递过程会引起梯度消失（gradientvanish）或者梯度爆炸（gradientexplosion）的问题。针对循环神经网络模型基本结构对长序列数据的记忆能力不强，并且当序列信号在网络中多次传递后，有可能引起梯度问题。学者们提出了长短期记忆（longshort-termmemory,LSTM）网络、门控循环单元（gatedrecurrentunit,GRU）等更加复杂的循环神经网络和记忆单元，使得循环神经网络模型可以更加有效地处理更长的序列信号。此外，本章还将对循环神经网络的一种扩展——递归神经网络（RecursiveNeuralNetwork）进行介绍。最后，本章还将介绍循环神经网络的具体应用实例。

循环神经网络结构1

4.1循环神经网络结构?

4.1循环神经网络结构单输入单输出的循环神经网络模型是一种一对一（onetoone）方式，适用于词性分类、时序回归或者图像分类问题，例如输出该单词的词性。单输入序列输出的循环神经网络模型是一种一对多（onetomany）方式，适用于图像标题预测等问题，如输入一张图像后输出一段文字序列；也可以作为解码器，如先训练好网络中的权重参数，给出一个单词解码一个句子。序列输入单输出的循环神经网络模型是一种多对一（manytoone）方式，适用于文字情感分析等问题，如输入一段文字，然后将其分为积极或者消极情绪，也可以作为的句子编码过程。序列输入序列输出的循环神经网络模型是一种多对多（manytomany）方式，适用于机器翻译等问题，如读入英文，语句然后将其以法语形式输出。同步序列输入序列输出的循环神经网络模型是一种多对多（manytomany）方式，适用于机器翻译模型、视频字幕翻译工具、自动问答系统等场合。

循环神经网络的训练2

4.2.1损失函数?

4.2.2时间反向传播算法?

4.2.2时间反向传播算法?权重V的梯度01

4.2.2时间反向传播算法?权重W的梯度02

4.2.2时间反向传播算法?

4.2.3梯度消失与梯度爆炸?

4.2.3梯度消失与梯度爆炸使用BPTT训练循环神经网络，即使是最简单的模型，在遇到梯度消失和梯度爆炸的问题时，都难以解决时序上长距离依赖问题。以下5种方法常用来解决这些问题。1.截断梯度：在循环神经网络更新参数时，只利用较近时刻的序列信息，而忽略历史久远的信息。2.设置梯度阈值：程序可以检测梯度数值很大，所以，可以设置梯度阈值，在梯度爆炸时，直接截断超过阈值的部分3.合理初始化权重值：尽可能避开可能导致梯度消失的区域，让每个神经元尽量不要取极值。例如，可以对利用高斯概率分布得到的权重进行修正，使其更加集中在分布中心，或者使用预训练的网络。4.使用ReLU作为激活函数：使用ReLU代替sigmoid和tanh作为激活函数。ReLU的导数限制为0和1，从而更能应对梯度扩散或者梯度消失问题5.使用LSTM或者GRU作为记忆单元：解决梯度扩散和长期依赖的问题可以将原循环神经网络模型中的记忆单元进行替换，LSTM和GRU结构是目前普遍采用的替换结构。

双向循环神经网络与深度循环神经网络3

4.3双向循环神经网络与深度循环神经网络双向循环神经网络(bi-directionalrecurrentneuralnetwork，Bi-RNN)不仅利用序列前面的信息，还会利用将要输入的信息。双向循环神经网络01

4.3双向循环神经网络与深度循环神经网络深度循环神经网络(deeprecurrentneuralnetworks，DRNN)在基本循环神经网络结构的基础上进行改进，每一个时刻t对应多个隐含层状态。该模型结构能够带来更好的学习能力，缺点在于难以对网络进行控制，并且随着网络层数的增多而引入更多的数学问题(例如梯度消失或者梯度爆炸等问题)。深度循环神经网络02

长短

您可能关注的文档

文档评论（0）

balala11 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

《深度学习》课件第4章-循环神经网络.pptx