线性回归模型.pptxVIP

  • 0
  • 0
  • 约4.48千字
  • 约 119页
  • 2022-10-29 发布于广东
  • 举报
线性回归模型;主要内容;1.1 模型结构和假设;1.1模型结构和假设;为方便起见, 线性回归模型可以表示为矩阵形式: 式中, ;基本假设;1.2 解释变量;1.2解释变量;Example: 车型是一个分类解释变量, 有A, B, C, D四个水平, 可以转化为x1, x2, x3三个虚拟变量, 定义如下表所示:; 假设车型是模型中唯一的解释变量, 则线性回归模型的拟合值表示为: 根据模型, 可以求得不同车型条件下对因变量的拟合值为: 在模型中, 车型D是基准水平, 也称参照水平。为??预测结果的稳定性, 通常选择观测值较多的水平为基准水平。 在R中的实现: type = factor(c(A, B, C, 0D)) model.matrix(~type) ;1.2.2交互效应 交互效应是指一个解释变量对因变量的影响与另一个解释变量有关。 譬如, 不同性别的驾驶人, 其年龄对索赔频率的影响是不同的, 即年龄和性别之间存在交互效应。; 1.2.3变量的标准化 为了消除量纲的影响, 可以考虑对变量进行标准化处理, 即: 式中, ;; 基于标准化以后的数据建立的回归模型为: 回归系数间有下述关系: 标准化回归系数的绝对值大小度量了解释变量的相对重要性, 值越大, 表明该解释变量对因变量的影响越大。 在R中, 用scale(data)实现标准化 ; 1.2.4变量变换 解释变量与因变量之间如果是非线性关系, 可以考虑对解释变量进行变换或建立多项式回归模型。 多项式回归是把一个解释变量的幂变换作为新的解释变量引入回归模型。 为简化表述, 不妨假设只有一个原始解释变量, 则m次多项式回归模型的基本形式如下: 所以多项式回归也属于线性回归模型。; 在普通多项式回归中, 多项式的阶数不同 , 参数估计结果也不同。 为了克服这种缺陷, 可以使用正交多项式回归模型 , 即把原来的解释变量 转化为新的正交解释变量。 譬如 , 三阶正交多项式回归模型为表示为:;在R中的实现: set.seed(10) x = 1:20 y = 2 + x + x^2 + runif(20)*50 mod1 = lm(y~x) mod2 = lm(y~poly(x, 2)) mod3 = lm(y~poly(x, 19)) plot(y ~ x, yaxs = i, pch = 19, ylim = c(0, 500), xlim = c(0, 21), xaxs = i, las = 1) abline(mod1) points(x, fitted(mod2), col = 2, type = l, lty = 4, pch = ) points(x, fitted(mod3), col = 4, type = l, lty = 5, pch = ) legend(1, 450, c(一元线性回归, 二次多项式回归, 19次多项式回归), lty = c(1, 2, 3), col = c(1, 2, 4)) ; 如果解释变量取值较大, 多项式模型中高次项可能会导致计算溢出, 从而使得对其参数的估计值出现下溢。解决这一问题的常用方法是对解释变量进行下述变换: 如果模型中包含多个自变量(譬如两个), 则模型可表示为: 在多项式回归模型中, 如果已经包含高次项, 则所有的低次项通常也要保留在模型中。;1.3 参数估计;1.3参数估计; 1.3.2极大似然估计 假设误差项服从正态分布, 则因变量 的密度函数为: 线性回归模型的对数似然函数可以表示为: 对数似然函数的最大化等价于残差平方和的最小化, 即在正态分布假设下, 回归参数的极大似然估计等价于最小二乘估计。; 对上式关于 求导, 并用回归参数的极大似然估计值 代入上式 , 并令上式等于零, 则可以求得方差参数 的极大似然估计值为: 这个方差估计是有偏的, 在实际中很少用。; 1.3.3方差参数的无偏估计 在线性回归模型中, 对因变量的预测值可以表示为:

文档评论(0)

1亿VIP精品文档

相关文档