- 1、本文档共46页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
5深度序列模型
目录|CONTENTS深度序列模型概述1Seq2Seq模型基础2融入注意力机制的Seq2Seq模型3Transformer模型基础4Transformer变体56总结
深度序列模型概述1
1.1深度序列模型定义深度序列模型定义处理输入/输出为序列的神经网络(文本、语音、时间序列等)
典型任务:情感分析(输入序列→分类标签)、机器翻译(序列→序列)模型结构示意图嵌入层转词为向量,特征层捕获上下文特征,输出层则根据任务需求进行映射。数学表示形式输入序列X={x?,x?,...,x?}→输出序列Y={y?,y?,...,y?}模型应用示例以翻译任务为例,我爱AI经过嵌入层转为向量,特征层捕获前后文关系,输出层逐词生成英文序列IloveAI。
嵌入层作用将由自然语言序列转化为计算机可以理解的词向量序列独热编码(One-Hot)独热编码又称作一位有效编码,单词的one-hot向量只有特征位的值为1,其余位数均由0填充。优点:是将自然语言序列转化为词向量序列最简单的方式缺陷:维度灾难(词表1万→1万维向量)、语义无关联(猫vs狗相似度为0)语义歧义问题:bank在金融/河岸场景下的独热编码相同独热编码矩阵示例包含独热编码矩阵。1.2模型嵌入层——独热编码(One-Hot)
优点相比于One-Hot编码,Word2Vec模型生成的词向量通常具有较低的维度,能够捕捉到词语之间的语义关系,使得相似含义的词语在向量空间中距离较近缺点仍然无法解决一词多义问题,例如仍然无法区分bank在金融/河岸场景下的含义静态词向量(Word2Vec)简介:word2vec是谷歌团队于2013年提出的一种用于训练词向量的模型,该方法的出发点为两个含义相似的单词,应该具有相似的词向量。例如“猫”作为一种受欢迎的宠物,其对应的词向量应该和“狗”更相似,而不是和“苹果”或者“葡萄”等水果更相似CBOWCBOW:CBOW通过某个词周围的词语来预测当前词语Skip-GramSkip-Gram:Skip-Gram通过语料库中的某个词语预测周围的词语两种模型word2vec在训练时采用的方式是以词语来预测词语,共包含两种模型:跳字模型(Skip-Gram)和连续词袋模型(CBOW)Word2Vec1.2模型嵌入层——静态词向量(Word2Vec)
1.2模型嵌入层——动态词向量(BERT、GPT)缺陷:计算资源消耗较高优点:动态地获取单词的词嵌入表示,可以更好地整合句子序列的语义信息,解决静态词向量无法辨别的一词多义问题0304动态词嵌入方法的做法是将自然语言序列输入到预训练模型中,取预训练模型对应的输出作为词语的词嵌入表示简介:随着大规模预训练模型的兴起,使用BERT、GPT等预训练模型对文本进行编码的动态词嵌入方法逐渐取代了word2vec等静态方法。0102动态词向量(BERT、GPT)
1.3模型特征层模型特征层作用特征层将嵌入层得到的词向量进行变换,获取输入序列的各种特征。例子以序列为例,当文本序列经过嵌入层处理后,会转换成一个由词嵌入向量组成的序列。接下来,特征层会对这个词嵌入向量序列进行一系列的线性变换和非线性变换,旨在提取出对后续任务(如分类、生成等)有价值的特征。特征提取器在深度序列模型中为了更好地提取富含文本信息的语义特征,特征层一般采用RNN作为特征提取器。RNN能够处理序列数据,通过捕捉序列中的时间依赖性来提取特征。基础RNN的缺陷RNN处理长距离依赖时的能力不足。由于RNN在反向传播时,梯度会随着时间步长的增加而指数级衰减或增长,这导致模型在处理较长序列时难以捕捉到序列开始部分的信息(梯度消失问题)或导致模型训练不稳定(梯度爆炸问题)。因此,当句子长度超过一定阈值(如20个单词以上)时,基础RNN的性能会显著下降,甚至失效。RNN改进:在RNN的众多变体中,长短期记忆网络(LSTM)和门控循环单元(GRU)因其能够有效缓解基础RNN的梯度消失和梯度爆炸问题而备受青睐。
1.3模型特征层LSTM和GRU引入了门控机制来控制信息的流动。这些门控机制能够有选择地保留或遗忘过去的信息,从而允许模型在处理长序列时能够捕捉到更远的上下文信息。LSTM:LSTM通过输入门、遗忘门和输出门来控制信息的流动输入门决定了新信息是否应该被添加到细胞状态中,遗忘门则决定了旧信息是否应该被保留,而输出门则控制了细胞状态中的信息是否应该被输出。这种设计使得LSTM能够长期保持信息,同时避免了传统RNN中的梯度消失问题。GRU:而GRU则通过更新门和重置门来实现类似的功能,但结构更为简单。更新门决定了前一时刻的状态信息有多少需要保留到当前时刻,而重置门则决定了前一时刻的状态信息有多少需要用于当前时刻的候选状态计算。与LSTM
文档评论(0)