大学课程《机器学习与经济学实证应用》PPT课件:第2讲_线性回归与惩罚回归.pptxVIP

大学课程《机器学习与经济学实证应用》PPT课件:第2讲_线性回归与惩罚回归.pptx

此“教育”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

1第2讲线性回归与惩罚回归

主要内容2线性回归正则化与惩罚回归交叉验证调参经济学代表性应用

主要内容3线性回归正则化与惩罚回归交叉验证调参经济学代表性应用

线性回归4假定响应变量Y和特征变量X的关系满足如下线性条件:回归问题的目标是给定D维输入变量X,并且每一个输入x都有对应响应变量y,要求对于全新的数据预测它对应的连续的目标值t。假设有一个包含多个房子的面积和价格的数据集如下:

线性回归5回归问题与分类问题回顾用一条曲线去尽量拟合这些数据点,那么对于新的输入,就可以将拟合的曲线上返回对应的点从而达到预测目的。如果要预测的值是连续变量,如房价,那么就属于回归问题;如果要预测的值是离散的,即一个个标签,那么就属于分类问题。

线性回归6回归问题假设“训练数据”我们试图通过上述训练数据,来学得一个函数,并以预测。一般化假设在训练集上构建的统计规律,到了新的样本集(测试集)是否依然存在

线性回归7回归系数假定响应变量Y和特征变量X的关系满足如下线性条件:

线性回归8最小二乘法通过最小化误差的平方和寻找数据的最佳函数匹配在满足一些基本条件后:

线性回归9线性回归的优势为何使用线性模型?难道世界不是非线性的(nonlinear)吗?总结起来,线性模型有以下优点。线性模型十分简单,且易于解释(interpretable)。在线性模型的假设下,每个变量x对于响应变量y的边际效应(marginaleffect)均为常数。即使f(x,β)为非线性函数,在足够小的局部,一般也可用线性函数来近似:一阶泰勒展开(Taylorexpansion)线性模型虽然简单,但可作为复杂模型的组成部分。因此,从线性模型入手,有助于理解机器学习的思想与方法。有些现象本身就是近似于线性的。那么线性模型预测性能如何呢?

线性回归10泰勒级数展开复习?

线性回归11偏差与方差??

线性回归12均方误差=偏差+方差+纯噪音OLS回归的均方误差分解:偏差平方与方差均“可降低的”(reducible);在极端情况下,如果知道真实函数f(x),则偏差与方差均为0

线性回归13偏差与方差Bias度量了算法的期望输出与真实结果的偏离程度,刻画了算法的拟合能力,Bias偏高表示预测函数与真实结果差异很大。Variance则代表“同样大小的不同的训练数据集训练出的模型”与“这些模型的期望输出值”之间的差异。训练集变化导致性能变化,Variance偏高表示模型很不稳定。Noise:刻画了当前任务任何算法所能达到的期望泛化误差的下界,即刻画了问题本身的难度。

线性回归14偏差与方差此消彼长左上角的低偏差、低方差情形为最为理想的模型,其估计值总在真实值附近。右上角的模型虽然平均而言系统偏差很小,但方差很大,故经常偏离靶心,存在“过拟合”(overfit)。左下角的模型则正好相反,虽然方差很小,几乎总打在相同的地方,但遗憾的是此地并非靶心,故偏差较大,存在“欠拟合”(underfit)右下角的模型则偏差与方差都较大,不仅存在较大系统偏差,而且波动幅度大,故是最糟糕的模型。

线性回归15偏差与方差示意图算法试图用有限的训练样本上去得到一个用来预测全新数据集的模型,为了降低模型的误差率,就要尽量使模型在训练数据集上更加“准确”,这样做往往会增加?ModelComplexity,但这却又忽略模型在全数据集的泛化能力,模型在训练数据集的Bias减少,但是对于训练数据集中没有出现的数据,模型对其预测就会很不稳定(容错性差),这样就会造成高Variance,这也就是常说的over-fitting。要想减少variance,就需要减少模型参数,提高模型容错性,但这又会导致高bias

线性回归16OLS回归偏差小,方差大?

主要内容17线性回归正则化与惩罚回归交叉验证调参经济学代表性应用

正则化与惩罚回归18正则化?

正则化与惩罚回归19正则化?

正则化与惩罚回归20正则化?

正则化与惩罚回归21高维数据下的线性回归大数据的一种表现形式为“高维数据”(highdimensionaldata),即特征向量x的维度p大于样本容量n。比如,某研究收集了100位病人的信息,其中每位病人均有2万条基因(即2万个变量)的数据,需要研究哪些基因导致了某种疾病。假设受成本限制,样本容量n100难以再扩大,而变量个数p远大于样本容量。对于高维数据情形下的线性回归由于np,故矩阵X不满列秩(存在严格多重共线性),因此不存在,故OLS不存在唯一解,无法进行OLS回归。??

正则化与惩罚回归22高维数据下的线性回归假设n=p=100。进一步,假定这100个特征变量x与响应变量y毫无关系(比如,相互独立),但将y对

文档评论(0)

专业写作专家 + 关注
实名认证
服务提供商

人力资源管理师持证人

专注于企业方案、制度、报告、总结、规划编制,PPT制作等

领域认证该用户于2023年09月21日上传了人力资源管理师

1亿VIP精品文档

相关文档