《大数据挖掘与统计机器学习》教学课件—01.pptxVIP

下载本文档

8
0
约6.4千字
约 48页
2021-10-11 发布于安徽
举报
版权申诉

《大数据挖掘与统计机器学习》教学课件—01.pptx

1、本文档共48页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

大数据挖掘与统计机器学习第1章概述1.统计学统计学是一门科学，应该是以分析数据、解决问题为导向，不断的提出新方法，并探讨其理论性质。2.数据智慧郁彬（2016），数据科学中的数据智慧，《中国计算机学会通讯》（中译稿）将统计学核心部分重新定义为“数据智慧”非常必要，因为它比“应用统计学”这个术语起到更好的概括作用。“数据智慧”是将领域知识、数学和方法论与经验、理解、常识、洞察力以及良好的判断力相结合，思辨性地理解数据并依据数据做决策的一种能力。十个基本问题（1）要回答的问题（2）数据收集（3）数据的含义（4）相关性（5）问题的转化（6）可比性：数据变换（7）可视化（8）随机性：数据的代表性、结果的不确定性（9）稳定性：结果的可解释性、可重复性（10）结果验证第2章线性回归方法2.1 多元线性回归（1）多元线性回归模型及其矩阵表示（2）最小二乘估计及其性质最小方差线性无偏估计(BLUE)（3）变量选择方法前进法、后退法和逐步回归法2.2 压缩方法:岭回归与Lasso 2.2.1 岭回归岭回归最初提出是为了解决回归中的多重共线性问题,也就是不满秩,不是正定矩阵的情形。这时有学者提出给加上一个正常数矩阵kI(k0),那么。其中,k是一个待估参数,需要使用一些方法来决定。1岭估计的性质: ①岭估计是有偏估计,但存在k0使得岭回归的均方误差小于最小二乘估计的均方误差。 ②岭回归的系数估计值的绝对值小于最小二乘估计的绝对值。因此称岭回归为一种压缩估计。　2另一种角度看待岭回归: 现代统计从损失函数加罚的角度看待岭回归,可以证明岭回归等价于在最小二乘估计的基础上对估计值的大小增加一个约束(也叫惩罚,有时也称为正则化)。　注意,这里只对自变量的系数施加了约束,并没有考虑截距项。一般可以通过数据中心化(因变量减去自身均值)消除的作用。上式称为β的岭回归估计,其中,k称为岭参数。k=0时(此时对应t=∞)的岭回归估计就是普通的最小二乘估计。岭参数k不是唯一确定的,所以得到的岭回归估计实际是回归参数β的一个估计族。 2.2.2 Lasso Lasso回归(Tibshirani, 1996)和岭回归类似(但又有着很重要的不同),是另一种压缩估计。与岭回归很重要的不同是,它在参数估计的同时既可以对估计值进行压缩,又可以让一些不重要的变量的估计值恰好为零,从而起到自动进行变量选择的功能。 Lasso回归等价于在最小二乘估计的基础上对估计值的大小增加一个不同于岭回归的约束(惩罚):注意:范数的概念是线性空间中向量长度概念的推广。 2.2.3 一张图看懂岭回归和Lasso回归岭回归和Lasso回归中的参数k或λ称为调节参数,需要估计。实际上不同的调节参数的取值对应不同的模型。因此,可以把调节参数的估计看成模型选择问题。? 2.2.4 从贝叶斯的角度再看岭回归和Lasso回归贝叶斯学派认为模型的参数β也是随机变量,服从一个先验分布,记为。因此,根据贝叶斯公式,可得的后验分布(正比例于先验分布乘以似然函数)为:　对于回归模型,假定误差服从正态分布,由于样本是独立同分布的,因此似然函数为:　我们进一步假定向量的先验分布为高斯分布,如图2—5(a)所示,即,则有　?根据贝叶斯公式,可求得的后验分布为:　对于这个后验分布,我们计算它的众数,即该分布取最大值的点对应的。因为对数函数是单增函数,所以对上式做对数变换,取最大值的点保持不变:　-显然,这与岭回归的目标函数是一致的。?我们假定向量的各个分量相互独立,且先验分布为Laplace(双指数)分布,即,则有如图2—5(b)所示。此时的后验分布为:　对其进行对数变换得:　这与Lasso的目标函数是一致的。 2.3 Lasso模型的求解与理论性质 2.3.1 解Lasso Lasso问题是一个凸优化问题,是一个平方损失加凸惩罚的优化问题。单变量Lasso目标函数:解析解:其中,?多变量Lasso方法:循环梯度下降第j步的目标函数:系数更新式: Lasso问题的目标函数是的凸函数因此没有局部最小值,循环梯度下降法从每个梯度方向最小化目标函数,在相对温和的条件下,函数将收敛到全局最优。?2.3.2 最小角回归最小角回归(Least Angle Regression,LARS)是Efron et al.(2004)提出的方法,可以看成是逐步向前回归的一个改进版,并且与Lasso回归有着很近的联系。实际上它提供了一种快速高效的求Lasso模型整个路径解的方法。也就是说,不再是固定一个的值,然后求解,而是把看成的函数,与求最小二乘解的算法复杂度类似,改进的最小角回归方法可以得到全部关于的解。?求解算法:S1:所有自变量

您可能关注的文档

文档评论（0）

139****1983 + 关注: 实名认证

文档贡献者

副教授、一级建造师持证人

一线教师。

咨询Ta 进入空间

领域认证该用户于2023年06月21日上传了副教授、一级建造师

1亿VIP精品文档

更多 >

《大数据挖掘与统计机器学习》教学课件—01.pptxVIP