网站大量收购独家精品文档,联系QQ:2885784924

深度学习DMC-RNN+LSTM模型介绍.pptxVIP

  1. 1、本文档共23页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
循环神经网络介绍——深度学习在序列数据的应用韩翠云目录RNN:结构介绍、前向传播、反向传播、梯度vanish(10min)LSTM:结构介绍(10min)Seq2Seq:结构介绍+代码演示(8min)RNN-前馈网络VS循环网络Standard NNConvolutional NNRNN-前馈网络VS循环网络?神经网络语言模型【 Bengio(1993)】学习词的分布式表示:a distributed representation of words(=Embedding)RNN-动态系统/循环函数/图模型?公式: 举例:房价当前值,既受过去价格的影响,也受当前调控政策的影响优点:共享参数+不同长度的扩展图模型:RNN-前向传播?更新方程损失函数维数输入: 偏置向量: 、 权重矩阵: 、 、 输出: RNN-反向传播/梯度Vanishing?反向传播BPTT各时间步损失的和一个时间步里的链式法则展开[k, t]时间步里的所有隐层的链式展开RNN-网络结构LSTM-网络结构LSTM-模型介绍LSTM关键-cell state,传送带,信息流动LSTM-模型介绍gates = a sigmoid neural net layer + a pointwise multiplication operation为cell state增加/减少信息,信息流动LSTM-模型介绍step1:forget gates: 输出值0-1之间的实数. 1代表全完保留,0代表丢弃LSTM-模型介绍step2:input gates : 输出值0-1之间的实数new memeory cell:输出值-1-1之间的实数LSTM-模型介绍?step3: 更新cell state,从到LSTM-模型介绍step4: 决定输出,基于cell state,但要过output gateLSTM-模型介绍?input gate(current cell matters): Forget gate (gate 0, forget paste) :Output gate (how much cell is exposed) : New memory cell : Final memory cell: Final hidden state:LSTM-变体1LSTM-变体2LSTM-变体3Seq2Seq-模型介绍RNN-反向传播?梯度vanish/explode简化循环网络:矩阵分解:特征值的t次方:特征值小于1,则会衰减到0特征值大于1,则会爆炸RNN-模型介绍?参数偏置向量: 、 权重矩阵: 、 、 损失函数语言模型?一句话解释什么是语言模型:p(S)=p(w1,w2,w3,w4,w5,…,wn)p(S)被称为语言模型,即用来计算一个句子概率的模型n-gram语言模型:(马尔科夫假设+条件概率)n的选择神经网络语言模型【 Bengio(1993)】学习词的分布式表示:a distributed representation of words(=Embedding)首先,简单看一下普通前馈NN和RNN的区别神经网络:模仿人类神经元、很多输入加权成一个值,经激活函数输出、可以有多层神经元组成前馈神经网络的缺陷:无记忆,之前的数据对当期数据不会有影响,这个对某些应用是ok的,如图片分类;本张图片的分类基本跟之前图片是没有什么关系的。但是对于序列数据而言,就不是这样了。自然语言其实就是序列数据。马尔可夫假设2.1 那么,我们在面临实际问题时,如何选择依赖词的个数,即n。 更大的n:对下一个词出现的约束信息更多,具有更大的辨别力; 更小的n:在训练语料库中出现的次数更多,具有更可靠的统计信息,具有更高的可靠性。在某些情况下,过去所有的值对当前的值都会有影响,所以希望把所有的值都加到预测当前函数中/watch?v=l4X-kZjl1gs参考意义较大,包括RNN+LSTM/watch?v=WCUNPb-5EYI左边的公式只是一个例子,激活函数、输出形式、损失函数可以选择别的。关于激活函数的选择这个上一次讲过了,也是一门学问。只不过这里选择了tanh这里的参数有偏置向量b、c和权重矩阵u、v、w这个循环网络将一个输入序列映射到相同长度的 输出序列。(但其实可以有1对多,多对1,多对多的RNN网络)与 x 序列配对的 y 的总损失就是所有时间步的损失之和。例如,L(t) 为 给定的x(1),...,x(t) 后y(t) 的负对数似然,则 其中 p 需要读取模型输出向量 y?(t) 中对应于 y(t) 的项。 负对数似然与交叉熵作为损失函数是什么关系。关于各个参数计算这个损失函数的梯度是计算成本很高的操作。梯度计算涉及执行 一次前向传播(如在图 10.3 展开图中从左到右的传

文档评论(0)

131****2653 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档