第4章 正反向传播.pptxVIP

  • 4
  • 0
  • 约6.84千字
  • 约 38页
  • 2020-02-08 发布于江西
  • 举报
高级大数据人才培养丛书之一,大数据挖掘技术与应用BIG DATA深度学习刘 鹏 张 燕 总主编刘鹏 主编 赵海峰 副主编全国高校标准教材《云计算》姊妹篇,剖析大数据核心技术和实战应用第四章 深度学习基本过程概述4.1 正向学习过程4.2 反向调整过程4.3手写体数字识别实例习题of41概述第四章 深度学习基本过程深度学习的基本过程是用训练数据去训练神经网络的模型去并得到所需模型的过程,主要包括正向学习和反向调整两个过程。反向调整就是将预测结果和标签进行对比,反向调整模型参数的过程。正向学习就是从输入层开始,自底向上进行特征学习,最后在输出层输出预测结果。of414.1 正向学习过程全国高校标准教材《云计算》姊妹篇,剖析大数据核心技术和实战应用第四章 深度学习基本过程概述4.2 反向调整过程4.3手写体数字识别实例习题of414.1正向学习过程第四章 深度学习基本过程4.1.1正向学习过程概述样本由输入层传入第一层layer,经第一层每个节点计算,每个节点得到一个输出,其输出继续作为下一层的输入,向前传播,直到输出层输出预测的结果。初次正向传播会先初始化网络的权值,得到的输出值并不一定正确值。of414.1正向学习过程第四章 深度学习基本过程4.1.2正向传播的流程若把深度学习的网络看做一个若干层的系统,I为输入,O为输出,若经过若干变换,输出仍能正确表达输入,就认为模型学到了一条正确表达输入的规律。of414.1正向学习过程第四章 深度学习基本过程4.1.3 正向传播的详细原理深度学习网络的实质是人工神经网络发展到多隐层的状态,其基本单元仍是神经元。基本单元:神经元of414.1正向学习过程第四章 深度学习基本过程4.1.3 正向传播的详细原理以此类推,假设l-1层,共有m个神经元,则对于l-1层的第j个神经元有:of414.1正向学习过程第四章 深度学习基本过程4.1.3 正向传播的详细原理数据输入网络 ? 向前传播 ? softmax分类器 ? 输出每类的预测结果of414.2 反向调整过程全国高校标准教材《云计算》姊妹篇,剖析大数据核心技术和实战应用第四章 深度学习基本过程概述4.1 正向学习过程4.3手写体数字识别实例习题of414.2反向调整过程第四章 深度学习基本过程4.2.1反向调整概述正向传播后,输入获得了一个对应的输出,将输出与输入的label相对比,计算误差值。误差值与各层参数相关,反向传播,将误差分摊到各层,修正各层参数,从而最小化误差值,优化模型参数。of414.2反向调整过程第四章 深度学习基本过程4.2.2反向传播过程详解反向传播原理:对比期望输出和实际输出,得到代价(误差)函数。为了最小化代价函数,利用链式求导,将误差向前传,修正各层参数。链式求导:多元函数链式法则:若 在 处可为微, 每个函数 在点 处可微分,则:of414.2反向调整过程第四章 深度学习基本过程4.2.2反向传播过程详解梯度下降法:梯度下降法是最常用的神经网络优化算法。若将代价函数简单可视化,代价函数相当于一个崎岖不平的盆地,有高峰也有低谷(最小值)。梯度下降的目标是取得最小值,每次沿着最陡峭的方向(梯度方向),下降一定的距离(步长)。of414.2反向调整过程第四章 深度学习基本过程4.2.2反向传播过程详解梯度下降法:梯度下降的步长不是一直不变的,当下降接近底部的时候,需要调整步子的大小,小心试探。当步子太大时,容易跨过最低点,在底部来回震荡。步子过小,下降速度会较慢。在梯度下降过程中,节点i和j之间连接的权重 的更新如下:其中η为学习速率,用于控制步长的变化。of654.2反向调整过程第四章 深度学习基本过程4.2.2反向传播过程详解由于初始化函数不同,初始下降点也会不同,下降路线也会不同。所以梯度下降有可能会得到局部最小值,而不是全局最小值。of414.2反向调整过程第四章 深度学习基本过程4.2.3深层模型反向调整的问题与对策反向传播的问题梯度弥散:由于sigmod函数在趋于无限大时,梯度会逐渐消失,随着传播深度的增加(如7层以上),残差传播到底层时已经变得太小,梯度的幅度也会急剧减小,导致浅层神经元的权重更新非常缓慢,无法有效进行学习。深层模型也就变成了前几层几乎固定,只能调节后几层的浅层模型,形成梯度弥散(vanishing gradient)。局部最优

文档评论(0)

1亿VIP精品文档

相关文档