网站大量收购独家精品文档,联系QQ:2885784924

大数据管理与应用 课件 第六章 数据回归分析.pptx

大数据管理与应用 课件 第六章 数据回归分析.pptx

  1. 1、本文档共35页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

第六章数据回归分析大数据管理与应用——主编:王刚副主编:刘婧、邵臻

数据回归分析作为大数据分析中的一个重要的分支,在管理科学,社会经济学领域中被广泛使用。在本章中您将了解数据回归分析的整体概述,掌握常用的回归分析方法包括线性回归分析,岭回归分析和LASSO回归分析,广义线性回归,非线性回归的基本概念以及建模过程。数据回归分析概述线性回归分析岭回归和LASSO回归分析广义线性回归分析非线性回归分析第六章数据回归分析

01数据回归分析概述02线性回归分析03岭回归和LASSO回归分析04广义线性回归分析05非线性回归分析

?1.1回归分析概念

回归描述了两种及两种以上的变量间的相关关系。按照涉及的特征变量的多少,可以将回归分为一元回归分析和多元回归分析;按照变量间的关系类型,分为线性回归分析和非线性回归分析。岭回归分析及LASSO分析是基于正则化的回归方法。并且,由于线性回归模型通常需要满足样本标签服从正态分布的假设前提,然而在实际问题中,样本标签的分布有时并不能满足上述假设,因而可以用来分析连续型样本标签和任意型特征变量之间关系的广义线性回归方法,也是回归分析中的一类经典方法。1.2回归分析的基本类型变量间关系变量的数量回归类型线性回归单个样本标签,单个特征变量一元线性回归单个样本标签,多个特征变量多元线性回归多个样本标签,多个特征变量多个样本标签与多个特征变量的回归非线性回归单个样本标签,单个特征变量一元非线性回归单个样本标签,单个特征变量多元非线性回归表6-1回归分析基本类型

回归分析方法是用来研究变量间关系,结构分析以及模型预测的有效工具,在经济,管理,金融等各个领域中应用广泛。从回归分析方法应用的形式来看,回归分析方法可以描述各个变量之间的关系,研究对样本标签造成影响的最主要因素,其影响方向以及影响程度等。回归分析方法可以进行结构分析,即利用回归模型的回归系数来解释各变量之间的数量关系。回归分析方法通常是利用历史数据对已经发生的现象活动进行模拟,找出变化的规律,进而通过特征变量在未来一段时间的估计值来预测样本标签,达到模型预测的目的。从回归分析方法应用的场景来看,回归分析方法的应用涉及多个方面,是辅助管理决策的有效工具。回归分析方法是进行人口预测分析的一类经典方法回归分析方法在辅助市场参与者进行需求预测以及规划仓储方案上具有实际的应用利用学生的校园行为数据,结合回归分析方法,可以优化学生培养和管理工作。1.3回归分析的应用

线性回归(LinearRegression)是回归分析方法中的一类,主要是对一个或多个特征变量和样本标签之间的关系进行建模的一种回归分析方法。在线性回归过程中,使用线性回归方程对已知数据进行建模,并利用这些数据对未知的模型参数进行估计,最终模拟关于特征变量和样本标签的线性变化关系。线性回归函数是一个或多个回归系数与特征变量的线性组合,当线性回归函数中只有一个特征变量时称之为一元线性回归,当有大于一个特征变量的情况称之为多元线性回归。实现方法直接,建模速度快,计算简单。可解释性强,各个特征变量对样本标签的影响强弱都可以通过特征变量前面的系数进行体现。对特征变量和样本标签之间的相关性进行量化,识别出与样本标签不相关的特征变量以及对样本标签具有重要影响力的特征变量。2.1线性回归分析概述线性回归分析的应用场景广泛,在金融预测、经济预测以及探究观测数据的因果关系的观察性研究中被普遍应用。

?2.2线性回归分析建模过程图6-1一元线性回归模型

?2.2线性回归分析建模过程

?2.2线性回归分析建模过程

?2.2线性回归分析建模过程

?2.2线性回归分析建模过程

?2.2线性回归分析建模过程

?3.1岭回归分析

?3.1岭回归分析

?3.1岭回归分析

?3.1岭回归分析

岭回归的算法伪代码:3.1岭回归分析

LASSO回归分析概述LASSO(LeastAbsoluteShrinkageandSelectionOperator),是由1996年RobertTibshirani首次提出,其主要是通过在最小二乘法的基础上添加一个惩罚函数,压缩回归系数,使得其同时具有子集选择和岭回归的优点。LASSO回归的主要思想是通过限制回归系数绝对值之和小于某个固定值来实现对最小二乘的约束,其同时能够使一些回归系数为零,从而实现其变量选择的作用。由此可以看出,LASSO具有较好的防止过拟合的作用。因为在样本的特征变量过多的情况下,通过训练模型能够较好地拟合训练数据,达到损失函数接近于0,而这一过程也会造成使训练的模型无法在新的数据样本中继续保持较好的预测效果。在这种情况下,LASSO通过加入正则项,对样本的特征变量实现变量选择的作用,降低在训练模型过程中的过拟合风险。

您可能关注的文档

文档评论(0)

xiaobao + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档