深度学习与自然语言处理手册（执行版）.docxVIP

下载本文档

4
0
约2.49万字
约 35页
2026-06-16 发布于江西
举报

深度学习与自然语言处理手册（执行版）.docx

深度学习与自然语言处理手册（执行版）

第1章深度学习基础架构与核心原理

1.1神经网络的基本数学模型与激活函数

神经网络的核心在于其数学表达，即通过一组线性变换矩阵$W$和偏置向量$b$对输入向量$x$进行加权求和，再通过非线性激活函数$f$进行转换，最终得到输出$y=f(Wx+b)$。这一过程构成了前向传播的基石，其中$W$是权重矩阵，$x$是输入特征向量，$b$是偏置项，$f$决定了网络的非线性表达能力。激活函数是引入非线性的关键，常见的如Sigmoid函数$f(x)=\frac{1}{1+e^{-x}}$将输出限制在(0,1)区间，适合二分类问题；而ReLU函数$f(x)=\max(0,x)$则能消除梯度消失问题，是深度网络中最常用的激活函数。

在深层网络中，如果仅使用线性激活函数，网络将退化为一层线性模型，无法拟合复杂的非线性关系；引入非线性激活函数后，多个神经元组合可以模拟复杂的函数曲面，从而提升模型的拟合能力。训练过程中，我们需要计算损失函数$L$，并反向计算梯度以更新权重。若输入层为$I$，输出层为$O$，则输出层的权重更新公式为$W^{(l)}_{new}=W^{(l)}-\eta\frac{\partialL}{\partialW^{(l)}}$，其中$\et

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

深度学习与自然语言处理手册（执行版）.docxVIP