- 1、本文档共35页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
第六章数据回归分析大数据管理与应用——主编:王刚副主编:刘婧、邵臻
数据回归分析作为大数据分析中的一个重要的分支,在管理科学,社会经济学领域中被广泛使用。在本章中您将了解数据回归分析的整体概述,掌握常用的回归分析方法包括线性回归分析,岭回归分析和LASSO回归分析,广义线性回归,非线性回归的基本概念以及建模过程。数据回归分析概述线性回归分析岭回归和LASSO回归分析广义线性回归分析非线性回归分析第六章数据回归分析
01数据回归分析概述02线性回归分析03岭回归和LASSO回归分析04广义线性回归分析05非线性回归分析
?1.1回归分析概念
回归描述了两种及两种以上的变量间的相关关系。按照涉及的特征变量的多少,可以将回归分为一元回归分析和多元回归分析;按照变量间的关系类型,分为线性回归分析和非线性回归分析。岭回归分析及LASSO分析是基于正则化的回归方法。并且,由于线性回归模型通常需要满足样本标签服从正态分布的假设前提,然而在实际问题中,样本标签的分布有时并不能满足上述假设,因而可以用来分析连续型样本标签和任意型特征变量之间关系的广义线性回归方法,也是回归分析中的一类经典方法。1.2回归分析的基本类型变量间关系变量的数量回归类型线性回归单个样本标签,单个特征变量一元线性回归单个样本标签,多个特征变量多元线性回归多个样本标签,多个特征变量多个样本标签与多个特征变量的回归非线性回归单个样本标签,单个特征变量一元非线性回归单个样本标签,单个特征变量多元非线性回归表6-1回归分析基本类型
回归分析方法是用来研究变量间关系,结构分析以及模型预测的有效工具,在经济,管理,金融等各个领域中应用广泛。从回归分析方法应用的形式来看,回归分析方法可以描述各个变量之间的关系,研究对样本标签造成影响的最主要因素,其影响方向以及影响程度等。回归分析方法可以进行结构分析,即利用回归模型的回归系数来解释各变量之间的数量关系。回归分析方法通常是利用历史数据对已经发生的现象活动进行模拟,找出变化的规律,进而通过特征变量在未来一段时间的估计值来预测样本标签,达到模型预测的目的。从回归分析方法应用的场景来看,回归分析方法的应用涉及多个方面,是辅助管理决策的有效工具。回归分析方法是进行人口预测分析的一类经典方法回归分析方法在辅助市场参与者进行需求预测以及规划仓储方案上具有实际的应用利用学生的校园行为数据,结合回归分析方法,可以优化学生培养和管理工作。1.3回归分析的应用
线性回归(LinearRegression)是回归分析方法中的一类,主要是对一个或多个特征变量和样本标签之间的关系进行建模的一种回归分析方法。在线性回归过程中,使用线性回归方程对已知数据进行建模,并利用这些数据对未知的模型参数进行估计,最终模拟关于特征变量和样本标签的线性变化关系。线性回归函数是一个或多个回归系数与特征变量的线性组合,当线性回归函数中只有一个特征变量时称之为一元线性回归,当有大于一个特征变量的情况称之为多元线性回归。实现方法直接,建模速度快,计算简单。可解释性强,各个特征变量对样本标签的影响强弱都可以通过特征变量前面的系数进行体现。对特征变量和样本标签之间的相关性进行量化,识别出与样本标签不相关的特征变量以及对样本标签具有重要影响力的特征变量。2.1线性回归分析概述线性回归分析的应用场景广泛,在金融预测、经济预测以及探究观测数据的因果关系的观察性研究中被普遍应用。
?2.2线性回归分析建模过程图6-1一元线性回归模型
?2.2线性回归分析建模过程
?2.2线性回归分析建模过程
?2.2线性回归分析建模过程
?2.2线性回归分析建模过程
?2.2线性回归分析建模过程
?3.1岭回归分析
?3.1岭回归分析
?3.1岭回归分析
?3.1岭回归分析
岭回归的算法伪代码:3.1岭回归分析
LASSO回归分析概述LASSO(LeastAbsoluteShrinkageandSelectionOperator),是由1996年RobertTibshirani首次提出,其主要是通过在最小二乘法的基础上添加一个惩罚函数,压缩回归系数,使得其同时具有子集选择和岭回归的优点。LASSO回归的主要思想是通过限制回归系数绝对值之和小于某个固定值来实现对最小二乘的约束,其同时能够使一些回归系数为零,从而实现其变量选择的作用。由此可以看出,LASSO具有较好的防止过拟合的作用。因为在样本的特征变量过多的情况下,通过训练模型能够较好地拟合训练数据,达到损失函数接近于0,而这一过程也会造成使训练的模型无法在新的数据样本中继续保持较好的预测效果。在这种情况下,LASSO通过加入正则项,对样本的特征变量实现变量选择的作用,降低在训练模型过程中的过拟合风险。
您可能关注的文档
- 阿姆斯特朗《市场营销学(第13版)》 课件 第 10 章 营销渠道:传递顾客价值.pptx
- 阿姆斯特朗《市场营销学(第13版)》 课件 第 11 章 零售与批发.pptx
- 阿姆斯特朗《市场营销学(第13版)》 课件 第 13 章 人员销售和销售促进.pptx
- 阿姆斯特朗《市场营销学(第13版)》 课件 第 14 章 直接营销、网络营销、社交媒体营销和移动营销.pptx
- 阿姆斯特朗《市场营销学(第13版)》 课件 第 15 章 全球市场.pptx
- 阿姆斯特朗《市场营销学(第13版)》 课件 第 16 章 可持续营销:社会责任和伦理道德.pptx
- 大数据管理与应用 课件 第八章 数据聚类分析.pptx
- 大数据管理与应用 课件 -第二章 大数据管理与应用的数学基础.pptx
- 大数据管理与应用 课件 第九章 数据关联分析.pptx
- 大数据管理与应用 课件 第七章 数据分类分析.pptx
- 大学生压力感知、心理灵活性和抑郁的关系及干预.pdf
- 基于rs-fMRI对前庭性偏头痛患者功能脑网络的研究.pdf
- 基于两阶段模型的交通标志检测方法研究.pdf
- 孕期血清糖醇水平与妊娠期糖尿病的相关性研究.pdf
- ATM-CXCL12信号通路通过募集和极化肿瘤相关巨噬细胞促进去势抵抗性前列腺癌的侵袭性和迁移能力的.pdf
- 连带污名下精神障碍儿童父母社会适应研究——基于S市“亲情照护家属课堂”项目.pdf
- 基于人工智能检测系统辅助超声检查在甲状腺良恶性病变鉴别诊断中的临床研究.pdf
- 多模态视域下国际中文教材中国家形象构建研究——以《发展汉语》和《博雅汉语》中高级教材为例.pdf
- 基于机器视觉的激光除漆机器人系统研究.pdf
- 共享审计对并购溢价的抑制作用研究——以东湖高新并购泰欣环境为例.pdf
最近下载
- 110KV输变电项目工程监理大纲.doc VIP
- 上海市初中英语必考考纲词汇详细解析拓展--字母B--教师版 .docx VIP
- 论语原文、注释、译文、评论.doc
- 母乳喂养PDCA分析和总结.docx
- PFMEA管理规定近年原文.doc
- 吉林省名校调研(省命题)2023-2024学年七年级上学期期末生物试卷.Doc VIP
- 高考语文一轮复习--戏剧阅读.pdf VIP
- 高中英语_The Road To Success教学课件设计.ppt
- 2025年山东鲁泰控股集团有限公司下属驻陕西煤矿企业招聘(150人)笔试备考题库及答案解析.docx
- 中国共产党的社会建设思想中央党校严书翰教授博导.ppt VIP
文档评论(0)