大数据解析与应用导论-第4章 回归分析.pptxVIP

  • 29
  • 0
  • 约1.41万字
  • 约 56页
  • 2023-01-30 发布于广东
  • 举报

大数据解析与应用导论-第4章 回归分析.pptx

大数据解析与应用导论Introduction to Big Data Analytics and Application授课教师: 赵春晖 4.1.5.3.2. 最小二乘回归主元回归岭回归基本概念偏最小二乘第四章 回归分析 4.1 基本概念(1)什么是线性模型(Linear model)??样本:, ?参数:, 线性模型:??令:?线性模型可简写为:典型的线性模型4.1 基本概念(2)什么是回归(Regression)?起源:19世纪80年代,英国统计学家弗朗西斯.高尔顿( Francis Galton )提出。弗朗西斯.高尔顿研究:父代身高与子代身高之间的关系。结论:子代的身高有向族群平均身高回归”的趋势。回归模型:从输入变量到输出变量之间的映射函数,等价于函数拟合。身高的回归4.1 基本概念(3)什么是线性回归模型??有训练样本:其中:, ?线性回归模型:学习一个线性模型,使得与尽可能接近,??则线性模型 称为线性回归模型线性回归分析:利用线性回归模型来对自变量(可以是向量)和因 变量之间关系进行建模的,称为线性回归分析4.1 基本概念(4)测评指标:训练误差(Training error):其中n是学习系统输入的训练样本数目;测试误差(Test error):?其中是预测系统输入的测试样本数目;4.1 基本概念(5)回归中的拟合效果:最佳拟合过拟合欠拟合欠拟合(Underfitting):模型过于简单,对训练数据拟合效果差,模型偏差大;过拟合(Overfitting):模型过于复杂,对训练数据的拟合过于充分,模型方差大;xxx训练样本测试样本4.1 基本概念(6)例子:多项式曲线拟合如何用多项式曲线来拟合这些点?函数的图像上采集了十个点:?4.1 基本概念(6)例子:多项式曲线拟合?多项式函数:?记:则可以写成: ,是一个(广义)线性模型。??因此,用是一个线性回归问题。4.1 基本概念?问题:如何确定多项式系数向量?(6)例子:多项式曲线拟合选择不同阶数时的拟合结果:大数据解析与应用导论Introduction to Big Data Analytics and Application授课教师: 赵春晖 4.1.5.3.2. 最小二乘回归主元回归岭回归基本概念偏最小二乘第四章 回归分析 4.2 最小二乘回归1(1)哪一个模型对样本拟合得最好?样本:??线性模型:?其中:哪一个模型对样本拟合得最好?典型的线性回归模型4.2 最小二乘回归1(2)用什么方法来衡量拟合程度??样本:?模型预测值与实际值的差值:问题:正负可能相互抵消解决:??最小二乘回归:使用模型拟合程度的衡量指标。典型的线性回归模型4.2 最小二乘回归1(3)模型的参数如何求取?样本矩阵: 其中?目标函数:?? =其中:??由极值条件可知,目标函数对w的一阶导数须为0, 即24.3 最小二乘回归2(1)最小二乘回归的几何意义其中:?目标函数:?? 其中目标函数的几何意义是什么? 向量的长度最短!??向量的长度几何意义是什么? ?分两部分看是行向量的线性组合,是另一个向量, 长度表示两个向量间的距离。4.3 最小二乘回归2(1)最小二乘回归的几何意义?综上:目标函数的几何意义是在行空间内找出一个向量,使得其与行空间内哪一个向量与?向量在行空间内的投影!??记投影为,则由投影的性质可知, 。?又因为投影在行空间内 ,根据投影的性质,于是有即 4.3 最小二乘回归2(1)最小二乘回归的几何意义示意图:???的第一行行向量??的第二行行向量大数据解析与应用导论Introduction to Big Data Analytics and Application授课教师: 赵春晖 4.1.5.3.2. 最小二乘回归主元回归岭回归基本概念偏最小二乘第四章 回归分析 4.3 岭回归分析(1)最小二乘回归的局限性例如,其中与高度线性相关,是正态分布噪声,由最小二乘法得到的拟合函数为:?数据的多重共线性:自变量之间存在线性相关的情况,例如;???当存在上述情况时,有此时由最小二乘回归方法得到的参数方差很大,可能出现本末倒置的情况。123451.11.41.71.71.81.11.51.81.71.90.8-0.50.4-0.50.2y16.316.819.21819.5123451.11.41.71.71.81.11.51.81.71.90.8-0.50.4-0.50.2y16.316.819.21819.54.3 岭回归分析(2)岭回归分析的定义岭回归分析(Ridge Regression)是一种专用于多重共线性数据分析的有偏估计回归方法,是最小二乘法的改良版。对于回归问题:由于加上了单位矩阵I其对角线全一,像一条山岭一样,就叫做岭回归算法。最小二乘回归的参数估计:

文档评论(0)

1亿VIP精品文档

相关文档