深度学习问答10：LSTM与GRU解决RNN长依赖问题的底层逻辑.docxVIP

深度学习问答10：LSTM与GRU解决RNN长依赖问题的底层逻辑.docx

深度学习问答10：LSTM与GRU解决RNN长依赖问题的底层逻辑

一、核心问答正文

问题1：为什么必须学习LSTM与GRU？

在上一篇问答09中，我们详细讲解了基础RNN循环神经网络的原理、结构以及适用场景，同时明确了原始RNN最大的致命短板：长序列下极易发生长期梯度消失，无法捕捉远距离时序依赖。

原始RNN依靠BPTT时序反向传播算法更新权重，序列时间步过长时，梯度经过链式法则反复累乘，远距离历史信息的梯度无限趋近于0，浅层参数无法更新。这直接导致RNN只能记忆近期20个以内时间步的信息，面对长文本、长语音、长期时序预测等任务完全无法落地。

为彻底解决RNN长期梯度消失、长依赖捕捉能力差的问题，科研人员先后提出两种门控类循环网络：LSTM（长短期记忆网络）与GRU（门控循环单元）。二者是传统RNN的升级版，也是NLP、时序预测任务工业落地的主流模型；同时门控机制、细胞状态、两类网络优劣对比，属于软考、算法面试最高频必考简答题。

问题2：复盘：原始RNN为什么无法解决长依赖？

想要透彻理解LSTM/GRU的优化逻辑，必须再次复盘RNN缺陷，明确优化靶点：

状态混杂存储：RNN仅有单一隐藏状态ht

无信息筛选机制：RNN对过往信息无筛选能力，所有历史数据无差别叠加，无用冗余信息持续累积，稀释有效长期记忆；

梯度衰减无法规避：隐藏状态每次更新都会被整体重置、覆盖，历史记忆只能依靠时序

更多 >