深度学习问答04：梯度下降、随机梯度下降SGD区别与优化方案.docxVIP

深度学习问答04：梯度下降、随机梯度下降SGD区别与优化方案.docx

深度学习问答04：梯度下降、随机梯度下降SGD区别与优化方案

一、核心问答正文

问题1：为什么要单独学习梯度下降优化算法？

在上一篇《深度学习问答03：反向传播算法原理》中，我们明确知道：神经网络依靠反向传播计算梯度，再通过梯度下降算法更新权重与偏置，不断缩小损失值，从而让模型自主学习。简单概括：反向传播负责求梯度，梯度下降负责更新参数。

很多零基础初学者存在认知误区：认为梯度下降只有一种固定形式。实际上原始梯度下降算法存在明显缺陷，无法适配大数据时代的深度学习训练场景，行业后续衍生出SGD、Mini-Batch、Momentum、RMSprop、Adam等一系列优化器。

本篇从底层原理出发，详解BGD、SGD、小批量梯度下降三者区别，拆解各类优化算法优缺点、适用场景、面试坑点，同时给出工业界万能选型方案，补齐神经网络参数更新的完整知识闭环。

问题2：什么是批量梯度下降BGD？最全原始梯度下降

批量梯度下降（BatchGradientDescent，BGD）是最原始、最基础的梯度下降算法，也是所有优化器的鼻祖，其余优化算法均基于BGD改良升级。

（一）核心运行逻辑

每一次更新参数时，使用全部训练集样本计算全局损失函数的梯度，再执行参数更新。简单直白理解：跑完所有数据，再更新一次参数。

（二）执行流程

输入训练集全部样本数据，完成一轮前向传播；

汇总所有样本损失，计算全局平均梯

更多 >