偏最小二乘.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
偏最小二乘

同理,可得 可见, 是矩阵 的特征向量,对应的特征值为 。 是目标函数值,它要求取最大值,所以 是对应于 矩阵最大特征值的单位特征向量。而另一方面,是对应于矩阵 最大特征值 的单位特征向量。 求得轴 和 后,即可得到成分 然后,分别求 和 对 , 的3个回归方程 其中,回归系数向量是 而 分别是3个回归方程的残差矩阵. 第2步 用残差短阵 和 取代 和 ,然后,求第2个轴 和 以及第2个成分 和 ,有 是对应于矩阵 ,最大特征值 的特征向量, 是对应于矩阵 最大特征值的特征向量。计算回归系数 因此,有回归方程 如此计算下去,如果X的秩是A,则会有 由于 均可以表示成 的线性组合,因此上面的还可以还原成 关于 的回归方程形式,即 是残差矩阵 的第k列 下面要讨论的问题是在现有的数据表下,如何确定更好的回归方程。在许多情形下,偏最小二乘回归方程并不需要选用全部的成分 进行回归建模,而是可以像在主成分分析时一样,采用截尾的方式选择前m个成分(m<A,A=秩(X)),仅用这m个成分 就可以得到一个预测性能较好的模型。事实上,如果后续的成分已经不能为解释 提供更有意义的信息时,采用过多的成分只会破坏对统计趋势的认识,引导错误的预测结论。下面的问题是怎样来确定所应提取的成分个数。 交叉有效性 在偏最小二乘回归建摸中,究竟应该选取多少个成分为宜,这可通过考察增加一个新的成分后,能否对模型的预测功能有明显的改进来考虑。采用类似于抽样测试法的工作方式,把所有n个样本点分成2部分;第一部分是除去某个样本点i的所有样本点集合(共含n一1个样本点),用这部分样本点并使用h个成分拟合一个回归方程;第二部分是把刚才被排除的样本点i代人前面拟合的回归方程,得到 在样本点i上的拟合值 。对于每一个i=1,2,…,n,重复上述测试,则可以定义 的预测误差平方和为 ,有 定义Y的预测误差平方和为 ,有 显然,如果回归方程的稳健性不好,误差很大,它对样本点的变动就会十分敏感,这种扰动误差的作用,就会加大 值。 另外.再采用所有的样本点,拟合含h个成分的回归方程。这时,记第i个样本点的预测值为 ,则可以定义 的误差平方和为 ,有 定义Y的误差平方和为 ,有 一般说来,总是有 大于 ,而 则总是小于 。下面比较 和 。 是用全部样本点拟合的具 有(h-1)个成分的方程的拟合误差; 增加了一个成分 ,但却含有样本点的扰动误差。如果h个成分回归方程的合扰动误差能在一定程度上小于h一1个成分回归方程的拟合误差,则认为增加1个成分 ,会使预测的精度明显提高。因此,希望 的比值能越小越好。在SIMCA—P软件中,指定 这时认为增加成分 就是有益的; 另有一种等价的定义称为交叉有效性。对每一个因变量 ,定义 对于全部因变量Y,成分 的交又有效性定义为 用交叉有效性测量成分 对预测模型精度的边际贡献有如下两个尺度。 (1)当 时 成分的边际贡献是显著的。 (2)对于k=1,2,…,q,至少有1个k,使得 这时增加成分 ,至少使1个因变量 的预测模型得到显著的改善,因此.也可以考虑增加成分 是明显有益的。 例:本节将采用兰纳胡德(Linnerud)给出的关于体能训练的数据进行典型相关分析。在这个数据系统中被测的样本点,是某健身俱乐部的20位中年男子。被测变量分为两组。第一组是身体特征指标X,包括:体重、腰围、脉搏。第二组变量是训练结果指标Y,包括:单杠、弯曲、跳高。原始数据见表6-1 原始数据表见表6—1表中共有20个样本点,有三个因变量,分别是单杠(y1)、弯曲(y2)和跳高(y3)。解释这三个因变量的自变量也是三个,即体重(x1)腰围(x2)和脉搏(x3)。成分

文档评论(0)

wyjy + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档