106-序列建模的深度学习利器：RNN基础架构【萌萌家】.pdf

下载文档

0
0
约3.16千字
约 5页
2025-03-14 发布于山东
举报
版权申诉
保障服务

106-序列建模的深度学习利器：RNN基础架构【萌萌家】.pdf

1、本文档共5页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

106|序列建模的深度学习利器：RNN基础架构

2018-05-04洪亮劼来自北京

《AI技术内参》

前面我们介绍了一个重要的文本模型，Word2Vec，我们聊了这个模型的基本假设，模型实

现，一些重要的扩展，以及其在自然语言处理各个领域的应用。

接下来，我们来讨论更加复杂的**基于深度学习的文本分析模型。这些模型的一大特点就是

更加丰富地利用了文字的序列信息**，从而能够对文本进行大规模建模。

今天，我们首先来看一看，序列建模的深度学习利器RNN（RecurrentNeuralNetwork，

递归神经网络）的基本架构。

文本信息中的序列数据

我们在之前介绍Word2Vec的时候，讲了为什么希望能够把上下文信息给融入到模型当中

去。一个非常重要的原因，就是在最早的利用“词包”（BagofWord）的形式下，离散的词

向量无法表达更多的语义信息。那么，从文本的角度来讲，很多研究人员都面对的困扰是，如

何对有序列信息的文本进行有效的建模？同时，对于广大文本挖掘的科研工作者来说，这也是

大家心中一直深信不疑的一个假设，那就是对文字的深层次的理解一定是建立在对序列、对上

下文的建模之中。

你可能有一个疑问，文字信息中真的有那么多序列数据吗？

其实，从最简单的语义单元“句子”出发，到“段落”，到“章节”，再到整个“文章”。这

些文字的组成部分都依赖于对更小单元的序列组合。例如，句子就是词语的序列，段落就是句

子的序列，章节就是段落的序列等等。不仅是“词包假设”无法对这样的序列进行建模，就算

是我们之前提到的Word2Vec等一系列学习词向量或者段落向量的方法，也仅仅能考虑到一

部分的上下文信息。

还有更加复杂的文字序列，比如对话。人与人的对话很明显是有顺序的。两个人之间进行对

话，当前所说的字句都是根据对方的回应以及整个对话的上下文所做出的选择。如果要对这样

复杂的文字序列进行建模，传统的不考虑序列的模型方法是肯定不能奏效的。

那么，传统的机器学习领域，有没有能够对时序信息建模的工具或者模型呢？

传统机器学习中的序列模型

在传统的机器学习领域当然有不少模型是针对序列进行建模的。最经典的要数“隐马尔科夫模

型”（HiddenMarkovModel），有时候又简称为HMM。在比较长的一段时间里，HMM

都是常用的对序列建模的缺省（Default）模型。我们今天的分享不是专门针对HMM模型，

但是对HMM的一个简单介绍，有助于我们理解为什么需要RNN。

HMM的一个最基本的假设是：当前的序列数据是根据一些隐含的状态产生的。具体来说，

HMM的架构是这样的。我们认为每个时间点都有一个对应的隐含状态。这个隐含状态只与当

前这个时间点之前的时间点所对应的隐含状态有关联。更加简单的假设，也是经常使用的假

设，则认为当前时间点的隐含状态，仅仅与之前最直接相邻的一个时间点的隐含状态有关，而

和之前所有时间点的隐含状态都没有关系了。这类似于说今天的天气仅仅与昨天有关，和昨天

之前的天气状态都没有任何关系，显然这是一个很强的假设。

从时间轴这个角度来说，HMM是构建了一个隐含状态的一阶马尔科夫链条。这里，“一阶”

是指每个状态仅与当前最邻近的状态有关。当我们构建好了隐含状态以后，就可以在这个基础

上对数据进行建模了。

HMM假定，每个时间点的数据都是从这个时间点的隐含状态产生的，而时间点所对应的数据

之间并不直接产生关系。也就是说，我们假定产生数据的原因是隐含状态，而隐含状态已经通

过一个链条给串联起来了，这样我们就不需要针对数据进行串联了。

HMM虽然理解起来相对比较直观，但在实际应用中存在不少问题。比如，这个模型的表现力

有限。我们刚才说了，一个普通的HMM假定了隐含状态的一阶性质，使得我们不能对比较

长的序列进行建模，因为模型无法对其中所有的隐含状态的转换进行建模，一阶无法表达这样

的关系。当然，HMM有一阶以上的表达，但这也就带来了HMM的一个普遍的问题，就是

训练方法比较复杂。对于一个现实问题而言，HMM的建模会相对比较复杂，从而让训练方法

更加繁复。这也就是为什么HMM不能适用于大规模问题的一个主要的原因。

RNN的基本架构

在HMM的基础上，我们再来看一下RNN的基本思想。

首先，我们需要指出的是，RNN并不是一个模型的称呼，而是一个框架。具体在这个框架内

部，根据不同的需求，我们可以构造出非常不一样的模型。

第二，RNN的一大优势是它根植于深度学习的大范畴中。RNN的模型都可以算是特殊的深度

学习模型。所以，深度学习模型的很多优化算法或者

您可能关注的文档

文档评论（0）

133****9720 + 关注: 实名认证

内容提供者

物业管理师证持证人

该用户很懒，什么也没介绍

咨询Ta 进入空间

领域认证该用户于2023年04月23日上传了物业管理师证

1亿VIP精品文档

更多 >

106-序列建模的深度学习利器：RNN基础架构【萌萌家】.pdf