第八章主成分回归与偏最小二乘(1).ppt

第八章主成分回归与偏最小二乘(1).ppt

  1. 1、本文档共28页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

第八章主成分回归

偏最小二乘估计§8.1主成分回归主成分回归(或称主成分分析PCA,principalcomponentanalysis)由皮尔逊(Pearson,1901)首先引入,后来被霍特林(Hotelling,1933)发展了。主成分分析是一种通过降维技术把多个变量化为少数几个主成分(即综合变量)的统计分析方法。这些主成分能够反映原始变量的绝大部分信息,它们通常表示为原始变量的某种线性组合。主成分分析的目的:(1)变量的降维;(2)主成分的解释。前个主成分的贡献率之和 称为主成分的累计贡献率,它表明解释的能力.通常取(相对于)较小的,使得累计贡献达到一个较高的百分比(如80%~90%).此时可用来代替从而达到降维的目的,而信息的损失却不多.在主成分分析中,我们首先应保证所提取的前几个主成分的累计贡献率达到一个较高的水平(即变量降维后的信息量须保持在一个较高水平上),其次对这些被提取的主成分必须都能够给出符合实际背景和意义的解释(否则主成分将空有信息量而无实际含义)。主成分的解释其含义一般多少带有点模糊性,不像原始变量的含义那么清楚、确切,这是变量降维过程中不得不付出的代价。因此,提取的主成分个数r通常应明显小于原始变量个数p(除非p本身较小),否则维数降低的“利”可能抵不过主成分含义不如原始变量清楚的“弊”。如果原始变量之间具有较高的相关性,则前面少数几个主成分的累计贡献率通常就能达到一个较高水平,也就是说,此时的累计贡献率通常较易得到满足。主成分分析的困难之处主要在于要能够给出主成分的较好解释,所提取的主成分中如有一个主成分解释不了,整个主成分分析也就失败了。主成分分析是变量降维的一种重要、常用的方法,简单的说,该方法要应用得成功,一是靠原始变量的合理选取,二是靠“运气”。例题在制定服装标准的过程中,对128名成年男子的身材进行了测量,每人测得的指标中含有这样六项:身高()、坐高()、胸围()、手臂长()、肋围()和腰围()。所得样本相关矩阵列于下表.经计算,相关阵的前三个特征值、相应的特征向量以及贡献率列于下表.(就是标准化以后的)前三个主成分分别为从上述表中可以看到,前两个主成分的累计贡献率已达78.2%,前三个主成分的累计贡献率达85.9%,因此可以考虑只取前面两个或三个主成分,它们能够很好地概括原始变量。偏最小二乘主成分在选因子的时候,只考虑了原始的自变量XTX,根据其特征根,计算方差贡献率,达到80%~90%左右即可,没有把与因变量y的相关性考虑在内。偏最小二乘在寻找自变量的线性函数时,考虑与y的相关性,选择与y相关性较强又能方便计算的部分自变量的线性组合,故称为偏最小二乘。例8.2

文档评论(0)

优美的文学 + 关注
实名认证
内容提供者

优美的文学优美的文学优美的文学优美的文学优美的文学

1亿VIP精品文档

相关文档