11第11章偏最小二乘回归分析.ppt

下载文档

77
0
约4.87千字
约 49页
2018-03-29 发布于北京
举报
版权申诉
保障服务

11第11章偏最小二乘回归分析.ppt

1、本文档共49页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

11第11章偏最小二乘回归分析.ppt11第11章偏最小二乘回归分析.ppt11第11章偏最小二乘回归分析.ppt

基础部数学教研室基础部数学教研室 */49 数学建模数学建模算法与应用基础部数学教研室基础部数学教研室 */49 数学建模在实际问题中，经常遇到需要研究两组多重相关变量间的相互依赖关系，并研究用一组变量（常称为自变量或预测变量）去预测另一组变量（常称为因变量或响应变量），除了最小二乘准则下的经典多元线性回归分析（MLR），提取自变量组主成分的主成分回归分析（PCR）等方法外，还有近年发展起来的偏最小二乘（PLS）回归方法。偏最小二乘回归提供一种多对多线性回归建模的方法，特别当两组变量的个数很多，且都存在多重相关性，而观测数据的数量（样本量）又较少时，用偏最小二乘回归建立的模型具有传统的经典回归分析等方法所没有的优点。偏最小二乘回归分析在建模过程中集中了主成分分析，典型相关分析和线性回归分析方法的特点，因此在分析结果中，除了可以提供一个更为合理的回归模型外，还可以同时完成一些类似于主成分分析和典型相关分析的研究内容，提供一些更丰富、深入的信息。本章介绍偏最小二乘回归分析的建模方法；通过例子从预测角度对所建立的回归模型进行比较。 11.1 偏最小二乘回归分析考虑个因变量与个自变量的建模问题。偏最小二乘回归的基本作法是首先在自变量集中提出第一成分（是的线性组合，且尽可能多地提取原自变量集中的变异信息）；同时在因变量集中也提取第一成分，并要求与相关程度达到最大。然后建立因变量与的回归，如果回归方程已达到满意的精度，则算法中止。否则继续第二对成分的提取，直到能达到满意的精度为止。若最终对自变量集提取个成分，偏最小二乘回归将通过建立与的回归式，然后再表示为与原自变量的回归方程式，即偏最小二乘回归方程式。为了方便起见，不妨假定个因变量与个自变量均为标准化变量。自变量组和因变量组的次标准化观测数据矩阵分别记为，. 偏最小二乘回归分析建模的具体步骤如下（1）分别提取两变量组的第一对成分，并使之相关性达最大。假设从两组变量分别提出第一对成分为和，是自变量集的线性组合，是因变量集的线性组合。为了回归分析的需要，要求 i）和各自尽可能多地提取所在变量组的变异信息； ii）和的相关程度达到最大。由两组变量集的标准化观测数据矩阵和，可以计算第一对成分的得分向量，记为和，（11.1） . （11.2）第一对成分和的协方差可用第一对成分的得分向量和的内积来计算。故而以上两个要求可化为数学上的条件极值问题 s.t. （11.3）利用Lagrange乘数法，问题化为求单位向量和，使达到最大。问题的求解只须通过计算矩阵的特征值和特征向量，且的最大特征值为，相应的单位特征向量就是所求的解，而可由计算得到（11.4）（2）建立对的回归及对的回归。假定回归模型为（11.5）其中，分别是多对一的回归模型中的参数向量，和是残差阵。回归系数向量的最小二乘估计为（11.6）称为模型效应负荷量。（3）用残差阵和代替和重复以上步骤。记，，则残差阵，。如果残差阵中元素的绝对值近似为0，则认为用第一个成分建立的回归式精度已满足需要了，可以停止抽取成分。否则用残差阵和代替和重复以上步骤即得，，而，为第二对成分的得分向量，，分别为的第二对成分的负荷量。这时有（4）设数据阵的秩为，则存在个成分，使得（11.7）把（），代入，即得个因变量的偏最小二乘回归方程式，. （11.8）（5）交叉有效性检验。一般情况下，偏最小二乘法并不需要选用存在的个成分来建立回归式，而像主成分分析一样，只选用前个成分（），即可得到预测能力较好的回归模型。对于建模所需提取的成分个数，可以通过交叉有效性检验来确定。每次舍去第个观测数据（），对余下的个观测数据用偏最小二乘回归方法建模，并考虑抽取（）个成分后拟合的回归式，然后把舍去的自变量组第个观测数据代入所拟合的回归方程式，得到在第个观测点上的预测值。对重复以上的验证，即得抽取个成分时第个因变量的预测误差平方和为，，的预测误差平方和为 . 另外，再采用所有的样本点，拟合含个成分的回归方程。这时，记第个样本点的预测值为，则可以定义的误差平方和为，定义的误差平方和为 . 当达到最小值时，对应的即为所求的成分个数。通常，总有大于，而则小于。因此，在提取成分时，总希望比值越小越好；一般可设定限制值为0.05，即当时，增加成分有利于模型精度的提高。或者反过来说，当时，就认为增加新的成分，对减少方程的预测误差无明显的改善作用。为此，定义交叉有效性为，这样，在建模的每一步计算结束前，均进行交叉有效性检验，如果在第步有，则模型达到精度要求，