- 4
- 0
- 约3.69千字
- 约 7页
- 2026-06-18 发布于河南
- 举报
深度学习问答10:LSTM与GRU解决RNN长依赖问题的底层逻辑
一、核心问答正文
问题1:为什么必须学习LSTM与GRU?
在上一篇问答09中,我们详细讲解了基础RNN循环神经网络的原理、结构以及适用场景,同时明确了原始RNN最大的致命短板:长序列下极易发生长期梯度消失,无法捕捉远距离时序依赖。
原始RNN依靠BPTT时序反向传播算法更新权重,序列时间步过长时,梯度经过链式法则反复累乘,远距离历史信息的梯度无限趋近于0,浅层参数无法更新。这直接导致RNN只能记忆近期20个以内时间步的信息,面对长文本、长语音、长期时序预测等任务完全无法落地。
为彻底解决RNN长期梯度消失、长依赖捕捉能力差的问题,科研人员先后提出两种门控类循环网络:LSTM(长短期记忆网络)与GRU(门控循环单元)。二者是传统RNN的升级版,也是NLP、时序预测任务工业落地的主流模型;同时门控机制、细胞状态、两类网络优劣对比,属于软考、算法面试最高频必考简答题。
问题2:复盘:原始RNN为什么无法解决长依赖?
想要透彻理解LSTM/GRU的优化逻辑,必须再次复盘RNN缺陷,明确优化靶点:
状态混杂存储:RNN仅有单一隐藏状态ht
无信息筛选机制:RNN对过往信息无筛选能力,所有历史数据无差别叠加,无用冗余信息持续累积,稀释有效长期记忆;
梯度衰减无法规避:隐藏状态每次更新都会被整体重置、覆盖,历史记忆只能依靠时序
您可能关注的文档
- 深度学习问答20:多任务学习是什么?适用AI业务场景分析.docx
- 深度学习问答19:迁移学习原理,如何利用预训练模型降低训练成本.docx
- 深度学习问答18:模型轻量化是什么?量化、剪枝技术答疑.docx
- 深度学习问答17:深度学习模型训练常见报错原因及解决方案.docx
- 深度学习问答16:目标检测算法:YOLO系列与Faster-RCNN对比.docx
- 深度学习问答14:Dropout正则化技术原理及防止过拟合实操.docx
- 深度学习问答15:图像分割三大任务:语义分割、实例分割区别.docx
- 深度学习问答13:批量归一化BN层作用、原理及添加位置建议.docx
- 深度学习问答12:Transformer架构全方位拆解(编码器+解码器).docx
- 深度学习问答11:注意力机制Attention核心原理与分类详解.docx
最近下载
- 《工业机器人系统操作员培训》课件——项目四:坐标系建立与工具标定.pptx VIP
- 临床试验项目标准操作规程(SOP) .pdf VIP
- 《工业机器人系统操作员》课件——工业机器人力控应用操作.pptx VIP
- 经济学基础(高鸿业第三版)课后习题答案.pdf VIP
- 《工业机器人系统操作员培训》课件——项目二:DSQC652板卡配置与IO系统搭建.pptx VIP
- YS∕T 347-2020 铜及铜合金平均晶粒度测定方法.pdf
- 第二轮土地承包到期后再延长30年试点工作意见解读.pptx VIP
- 老年共病管理指南(2023年版)解读与实践.pptx VIP
- 《工业机器人系统操作员培训》课件——项目三:传感器信号接入与系统联调.pptx VIP
- 防汛抗台应急预案与演练.pptx VIP
原创力文档

文档评论(0)