- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
深度学习LSTM算法简介
LSTM算法简介01
LSTM介绍LSTM:长短期记忆核心思想:引入自循环的巧妙构思,以产生梯度长时间持续流动的路径。自循环的权重视上下文而定,而不是固定的。累计的时间尺度可以动态地改变。常见应用:1:无约束的手写识别2:语音识别3:手写生成4:机器翻译01
LSTM层次结构普通的RNN结构:LSTM的重复模块中有4个神经网络层02
层次结构展开LSTM关键:“细胞状态”细胞状态类似于传送带。直接在整个链上运行,只有一些少量的线性交互。信息在上面流传保持不变很容易。细胞在各个步骤间传递的主要信息,Ct可以无障碍的在主干道上进行传递,因此较远的梯度也可以在长程上传播。03
基础理论02
回顾RNN神经网络RNN(RecurrentneuralNetwork、循环神经网络)神经网络是一种节点定向连接成环的人工神经网络。这种网络的内部状态可以展示动态时序行为。不同于前馈神经网络的是,RNN可以利用它内部的记忆来处理任意时序的输入序列,这让它可以更容易处理如不分段的手写识别、语音识别等。01
LSTM层次结构普通的RNN结构:LSTM的重复模块中有4个神经网络层02
层次结构展开LSTM关键:“细胞状态”细胞状态类似于传送带。直接在整个链上运行,只有一些少量的线性交互。信息在上面流传保持不变很容易。细胞在各个步骤间传递的主要信息,Ct可以无障碍的在主干道上进行传递,因此较远的梯度也可以在长程上传播。03
层次结构说明LSTM怎么控制“细胞状态”?LSTM可以通过gates(“门”)结构来去除或者增加“细胞状态”的信息包含一个sigmoid神经网络层次和一个pointwist乘法(元素级相乘)操作Sigmoid层输出一个0到1之间的概率值,描述每个部分有多少量可以通过,0表示“不允许任务变量通过”,1表示“运行所有变量通过”LSTM中主要有三个“门”结构来控制“细胞状态”04
遗忘门第一个“门”==“遗忘门”:决定从“细胞状态”中丢弃什么信息;比如在语言模型中,细胞状态可能包含了性别信息(“他”或者“她”),当我们看到新的代名词的时候,可以考虑忘记旧的数据05
信息增加门第二个“门”==“信息增加门”:决定放什么新信息到“细胞状态”中;Sigmoid层决定什么值需要更新;Tanh层创建一个新的候选向量Ct;主要是为了状态更新做准备06
细胞状态经过第一个和第二个“门”后,可以确定传递信息的删除和增加,即可以进行“细胞状态”的更新更新Ct-1为Ct;将旧状态与ft相乘,丢失掉确定不要的信息;加上新的候选值it*Ct得到最终更新后的“细胞状态”07
输出门第三个“门”==基于“细胞状态”得到输出;首先运行一个sigmoid层来确定细胞状态的那个部分将输出使用tanh处理细胞状态得到一个-1到1之间的值,再将它和sigmoid门的输出相乘,输出程序确定输出的部分。08
前向传播LSTM的前向传播:09
反向传播反向传播:10
LSTM变种(1)变种1增加“peepholeconnections”层让门层也接受细胞状态的输入11
LSTM变种(2)变种2通过合并忘记门和更新输入门(第一个和第二个门);也就是不再单独的考虑忘记什么、增加什么信息,而是一起进行考虑。12
LSTM变种(3)GatedRecurrentUnit(GRU),模型中只有两个门:更新门z和重置门r更新门用于控制前一时刻的状态信息被带入到当前状态中的程度(决定留下多少之前的记忆),更新门的值越大说明前一时刻的状态信息带入越多。重置门控制前一状态有多少信息被写入到当前的候选集h~t上,重置门越小,前一状态的信息被写入的越少13zt和rt分别表示更新门和重置门
总结通过对LSTM模型的学习,我们解决RNN模型中长过程记忆衰退的问题。14
原创力文档


文档评论(0)