- 1、本文档共30页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
第四章循环神经网络
第一节网络结构
序列问题卷积网络处理图像,计算机视觉卷积网络侧重于对单张图像的局部空间特征建模循环网络处理序列,自然语言处理循环网络擅长挖掘数据中的序列特性序列学习:从输入序列中预测输出序列语音识别、视频理解、机器翻译、股票预测示例:预测下一个词输入序列:南开大学很好,我爱南开大学预测序列:大学很好,我爱南开大学#特点:前面的输入和后面的输出是有关联的
序列问题难点1:需要将长时间跨度上的信息有效关联起来模型需要理解和记住在序列早期出现的信息,并能将这些信息与后续信息相关联示例:Heswarmacrosstherivertogettotheotherbank卷积网络:侧重局部信息建模,无法捕捉到信息之间的长期关联循环网络:能够更好地建模长期依赖关系,更擅长处理序列数据难点2:重要信息在序列中出现位置的不确定性要求模型具备在全局序列中具有搜索和识别关键信息的能力2023年我在天津参加深度学习学术会议我参加了天津举行的2023年深度学习学术会议我参加了天津举行的深度学习学术会议,时间是2023年
4.1循环神经网络结构预测t时刻的输出需要知道t时刻之前的序列信息隐状态:功能类似于记忆,存储了到时刻t的历史序列信息基于当前输入和前一时刻的隐状态来计算时刻t处的隐状态引入神经网络层中的“线性变换+非线性激活函数”操作:常用双曲正切函数(tanh)作为激活函数输出:时刻t处的输出依赖于时刻t处隐状态引入神经网络层中的“线性变换+非线性激活函数”操作:一般为不使用激活函数的全连接层通过引入隐状态,输出层只依赖于当前时刻的隐状态,而不需要显示依赖之前所有输入或
4.1.1权值共享不同时刻共享相同的隐藏层权重和偏置、输出层权重和偏置在所有时间步学习单一模型,而不需要为每一个时间步学习一个独立的模型权值共享的好处:参数共享使得模型能够扩展到不同长度的样本参数共享能够减少参数量,从而简化训练难度,提高网络的泛化能力参数共享能够处理相同信息出现在不同位置的情况 IwenttoBeijingin2009 In2009,IwenttoBeijing.
4.1.2输入输出编码当输入和输出为自然语言句子时的几种编码方式每个词编码为一个唯一的数字索引记为词表大小,则为索引范围t时刻的输入和输出为标量存在问题:索引1、2、3,隐式认为1和2的距离比1和3更近采用one-hotcoding(独热编码)将索引映射为向量如果词的索引是整数i,那么我们将创建一个长度为的全0向量,并将第i处的元素置为1不在词表中的词或低频词可以归类到other类不用编码之间的距离都是一样的
4.1.2输入输出编码当输入和输出为自然语言句子时的几种编码方式独热编码存在问题:one-hotcoding编码下的任意两个向量内积为0,表明该编码下的词彼此之间不含任何相似信息,无论两个词在语义上是近义词还是反义词在实际应用中,我们更希望具有相似语义的词的编码表示也应该是相似的词嵌入:word2vec,把一个词映射到一个低维稠密向量,从而使得语义相似的词具有相近的词向量通过无监督大语料训练可以获得高质量的词向量,从而把这些语义知识迁移到其他具体任务上
4.1.3损失函数若输出使用one-hotcoding,可以将网络输出通过softmax转换为概率,表示时刻t输出每一个单词的概率使用交叉熵损失函数度量预测输出和真实输出之间的差距:训练过程的损失函数—所有时刻交叉熵损失的平均:
4.1.4深度循环网络单隐藏层循环网络:只有一个隐藏层多隐藏层深度循环网络:多个隐藏层,每个隐状态都连续地传递到当前层的下一个时间步和下一层的当前时间步
4.1.5双向循环网络单向循环网络:主要针对“过去”时间步的状态对“未来”时间步的状态有影响的任务双向循环网络:主要处理同时需要上下文信息的任务通过从两个方向处理信息,双向循环网络能够获得更全面的上下文视角填充缺失单词?我高考考了700分,我想上___学习。?我高考考了700分,我想上___学习,我喜欢天津这座城市。?我高考考了700分,我想上___学习,我喜欢天津这座城市,我想学文科。形式化描述优势双向网络处理每个词时已经看完了整个句子单向网络只看了前面部分的句子
4.1.6梯度消失和爆炸在RNN中,由于权重共享,使用反向传播计算梯度时会连续乘以相同的权重矩阵如果权重矩阵的特征值小于1,则梯度会逐渐减小,直到几乎消失。如果权重矩阵的特征值大于1,则梯度会逐渐增大当RN
文档评论(0)