- 1、本文档共66页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
任务六:使用LSTM网络自动生成图片摘要文本任务知识—LSTM长短记忆网络
RNN反向传播01梯度消失和梯度爆炸02LSTM网络结构03LSTM用途及优缺点04
RNN反向传播/01
?
输出层权重V的梯度计算公式为计算输出层梯度反向传播首先需要损失Lt,通常使用平方误差损失或交叉熵损失,计算公式如下:反向传播期分为4个步骤:第一步:计算输出层梯度,首先计算输出层误差,公式如下:
反向传播到隐藏层第二步:反向传播到隐藏层,对于每一个时间步t,从最后一个时间开始反向传播,计算当前时间步的隐藏层误差需要考虑未来时间步的误差传递公式如下其中,f'(h(t))是激活函数的导数(例如,对于tanh激活函数的导数为1-(h(t))2
计算递归权重矩阵W梯度计算隐藏层梯度计算输入权重U梯度
权重更新?
梯度消失和梯度爆炸/02
4.任务知识RNN的梯度表达式中用乘积表示了最终的梯度,如果某一个隐藏层的的前一隐藏层的单个梯度小于1,这时经过多个时间步的反向传播,梯度的乘积会越来越小,最终导致梯度消失。如果一个梯度值大于1,乘积就会越来越大,导致梯度爆炸。梯度爆炸会导致训练过程崩溃,梯度消失可以采用使用Relu函数替换tanh激活函数等方法降低其的影响。RNN梯度爆炸和梯度消失的问题
在RNN常采用梯度裁剪,使用Xavier、He方法初始化权重,使用正则化、Dropout等方法缓解梯度爆炸的现象;对于梯度消失问题可以选用更合适的激活函数,增加输入门、遗忘门和输出门来控制信息的流动,保留长时间依赖关系。同时也可以使用批归一化、残差网络等。RNN梯度爆炸和梯度消失的问题
4.任务知识RNN存在的其他问题长期依赖问题:RNN在处理长序列时,难以捕捉到远距离位置之间的依赖关系。尽管理论上RNNs可以处理任意长度的序列,但实际上,它们更擅长处理短期依赖。计算效率低:RNN的序列处理本质上是顺序的,这意味着无法进行并行计算,这在处理长序列时会导致计算效率低下。难以训练:由于梯度消失和梯度爆炸问题,RNNs的训练过程常常需要小心调参和选择合适的优化方法,否则容易陷入局部最优或训练失败。
RNN的记忆容量有限的问题在RNN中,梯度的更新与权重矩阵的乘积有关,如果权重矩阵的特征值小于1,经过多次相乘后,梯度会迅速变得很小,导致梯度消失。同时常用的激活函数(如sigmoid和tanh)在某些输入范围内会产生非常小的梯度,这会进一步加剧梯度消失问题。而梯度消失会导致模型的训练变得困难,特别是在需要捕捉长程依赖的任务中,模型的性能会显著下降。这就会导致RNN丧失学习远端前序信息的能力,也可以理解为RNN网络“记忆容量有限”。
LSTM网络结构/03
LSTM长短记忆网络LSTM循环神经网络是RNN网络的一种,它增加了三个门结构。输入门用于控制输入信息的流入,遗忘门用于控制旧信息的遗忘,输出门用于控制输出信息的流出。通过这些门的控制,LSTM可以选择性地记住或忘记信息。
遗忘门定义了你希望允许通过的前一个状态ht-1的数量。输入门定义了你当前的输入xt允许通过多少新计算的状态。输出门定义了你希望向下一层公开多少内部状态。根据当前输人xt和上一个隐状态ht-1来计算内部隐状态g它们的对应的参数权重是Wi、Ui、Wf、Uf和Wo、UoLSTM长短记忆网络-门结构
单元状态C,类似于传送带,直接在用来传输三个门的输出数据,它只有一些线性的交互,可以保证传输的数据不发生变化。LSTM长短记忆网络-单元状态C
LSTM如何控制门中的输出数据呢,遗忘门包含一个包含一个sigmoid神经网络层和一个pointwise乘法操作。Sigmoid层输出0到1之间的概率值,描述每个部分有多少量可以通过,0代表“不许任何量通过”,1就指“允许任意量通过”。可以通过“门”让信息选择性通过,来去除或者增加信息到状态单元中。LSTM长短记忆网络-遗忘门
决定放什么新信息到模型中,这里需要3个操作,Sigmoid层决定什么值需要更新,Tanh层创建一个新的候选值向量,然后将两个值相加。LSTM长短记忆网络-输入门
首先将旧状态Ct-1与遗忘门ft的值相乘,丢弃掉无用的信息,然后加上it与的乘积,得到更新的状态Ct,其中it与的乘积表示新的内部隐状态。LSTM长短记忆网络-更新状态
首先运行一个sigmoid层来确定细胞状态的哪个部分将输出。用tanh处理细胞状态(得到一个在-1到1之间的值),再将它和sigmoid门的输出相乘,输出确定输出的那部分。LSTM长短记忆网络-输出
LSTM用途及优缺点/04
LSTM用途,LSTM长短期记忆网络是一种特殊的递归神经网络,它通过使用记忆单元和门控机制来有效捕获序列数据中的长距离依赖关系,主要用于处理和预测时间序列数据
文档评论(0)