- 0
- 0
- 约2.36千字
- 约 4页
- 2026-02-26 发布于山东
- 举报
线性回归基础知识点
线性回归的定义
线性回归是一种用于建立变量之间线性关系的统计分析方法。简单来说,它试图找到一个线性函数,使得该函数能够最佳地描述一个或多个自变量与一个因变量之间的关系。在二维空间中,简单线性回归模型可以表示为$y=\beta_0+\beta_1x+\epsilon$,其中$y$是因变量,$x$是自变量,$\beta_0$是截距,$\beta_1$是斜率,$\epsilon$是误差项,代表了不能被线性关系解释的随机部分。
简单线性回归模型假设
1.线性关系假设:因变量和自变量之间存在线性关系。这意味着数据点在散点图上大致分布在一条直线周围。
2.独立性假设:误差项$\epsilon$之间相互独立,即一个观测值的误差不会影响其他观测值的误差。在实际应用中,这通常要求数据是独立同分布的样本。
3.正态性假设:误差项$\epsilon$服从正态分布,即$\epsilon\simN(0,\sigma^2)$。这意味着误差围绕均值0对称分布,大部分误差较小,只有少数误差较大。
4.同方差性假设:误差项的方差$\sigma^2$在所有自变量值上保持恒定。这保证了在整个自变量范围内,模型的预测精度相对稳定。
参数估计
在简单线性回归中,关键是估计参数$\beta_0$和$\beta_1$的值。最常用的方法是最小二乘法。最小二乘法的目标是找到一组参数值,使得观测值$y_i$与预测值$\hat{y}_i=\hat{\beta}_0+\hat{\beta}_1x_i$之间的误差平方和最小。误差平方和(SSE)的计算公式为$SSE=\sum_{i=1}^{n}(y_i-\hat{y}_i)^2=\sum_{i=1}^{n}(y_i-(\hat{\beta}_0+\hat{\beta}_1x_i))^2$。
通过对$SSE$分别关于$\beta_0$和$\beta_1$求偏导数,并令偏导数为0,可得到正规方程组,进而求解出$\hat{\beta}_1=\frac{\sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})}{\sum_{i=1}^{n}(x_i-\bar{x})^2}$,$\hat{\beta}_0=\bar{y}-\hat{\beta}_1\bar{x}$,其中$\bar{x}$和$\bar{y}$分别是自变量和因变量的样本均值。
多元线性回归
当存在多个自变量时,就需要使用多元线性回归模型。其一般形式为$y=\beta_0+\beta_1x_1+\beta_2x_2+\cdots+\beta_px_p+\epsilon$,其中$x_1,x_2,\cdots,x_p$是$p$个自变量。
多元线性回归同样使用最小二乘法进行参数估计,但计算过程更为复杂,通常借助矩阵运算来求解参数向量$\boldsymbol{\beta}=(\beta_0,\beta_1,\cdots,\beta_p)^T$。在矩阵形式下,模型可表示为$\boldsymbol{y}=\boldsymbol{X}\boldsymbol{\beta}+\boldsymbol{\epsilon}$,其中$\boldsymbol{y}$是因变量观测值向量,$\boldsymbol{X}$是设计矩阵,包含自变量的观测值以及一列全为1的向量用于表示截距项。参数估计值$\hat{\boldsymbol{\beta}}=(\boldsymbol{X}^T\boldsymbol{X})^{-1}\boldsymbol{X}^T\boldsymbol{y}$。
模型评估
1.拟合优度:常用的评估指标是决定系数$R^2$。它衡量了回归模型对因变量变异的解释程度,取值范围在0到1之间。$R^2$越接近1,说明模型对数据的拟合效果越好。其计算公式为$R^2=1-\frac{SSE}{SST}$,其中$SST=\sum_{i=1}^{n}(y_i-\bar{y})^2$是总平方和,表示因变量的总变异程度。
2.调整后的$R^2$:在多元线性回归中,随着自变量的增加,$R^2$通常会增大,即使新增的自变量对模型并没有实际贡献。调整后的$R^2$对自变量的数量进行了修正,避免了过度拟合导致的高估,其计算公式为$R^2_{adj}=1-\frac{SSE/(n-p-1)}{SST/(n-1)}$,其中$n$是样本数量,$p$是自变量个数。
3.显著性检验:通过$F$检验来判断
原创力文档

文档评论(0)