偏最小二乘回归分析.pptVIP

下载本文档

224
0
约3.27千字
约 39页
2017-02-15 发布于江西
举报

偏最小二乘回归分析.ppt

* 偏最小二乘回归分析 2.PLS的数据结构与建模思想 4.PLS的辅助分析 5.应用范例与MATLAB实现 Partial Least-squares Regression Analysis 1.引言 3.PLS的算法步骤 1. 引言 ? 多元线性回归分析的困惑多元线性回归分析（MLR）是研究变量之间相关关系的基本方法.但是，下列两个问题制约着其应用的效能： ①样本容量要求很高，一般应大于30或大于自变量数的5-10倍. ②消除变量间多重相关性很难. 若在变量间存在严重多重相关性，将对回归建模与模型分析工作带来如下危害： Ⅰ.在自变量间存在严重多重相关性的情况下，将造成模型的正规方程系数矩阵的严重病态性，进而使模型参数的最小二乘估计失真. 回归系数的估计方差将随着自变量之间相关程度的不断增强而迅速扩大，回归系数的估计值对样本数据的微小变化变得非常敏感，回归系数估计值的稳定性将变得很差. Ⅱ.在自变量高度相关条件下，用最小二乘法得到的回归模型，其回归系数的物理含义很难解释. 许多从专业知识上看似乎是十分重要的变量，其回归系数的取值变得微不足道，甚至还会出现回归系数的符号与人们的实际概念完全相反的现象. Ⅲ.存在严重的多重共线性影响时，回归系数的统计检验将难以通过. 由于多重共线性所造成后果的严重性，所以回归建模过程中必须要解决多重共线性问题. 常见的方法是用逐步回归法来进行变量的筛选，去掉不太重要的相关性变量.然而，逐步回归法存在下列问题： Ⅰ.缺乏对变量间多重相关性进行判定的十分可靠的检验方法. Ⅱ.删除部分多重相关变量的做法常导致增大模型的解释误差，将本应保留的系统信息舍弃，使得接受错误结论的可能以及做出错误决策的风险不断增长. 在克服变量多重相关性对系统回归建模干扰的努力中， 1983年瑞典伍德(S.Wold)、阿巴诺(C.Albano)等人提出了偏最小二乘回归分析(Partial Least squares Regression ,PLS)方法，它开辟了一种有效的技术途径，在处理样本容量小、解释变量个数多、变量间存在严重多重相关性问题方面具有独特的优势，并且可以同时实现回归建模，数据结构简化以及两组变量间的相关分析. 2. PLS的数据结构与建模思想 ? 数据结构设有个因变量与个自变量为了研究因变量与自变量的统计关系，观测了个样本点，由此分别构成了自变量与因变量的“样本点×变量”型的数据矩阵，记为和 ? 建模思想 PLS方法在建模过程中采用了信息综合与筛选技术. PLS方法不直接考虑因变量系统对自变量系统的回归建模，而是从自变量系统中逐步提取个对自变量系统和因变量系统都具有最佳解释能力的新综合变量亦称之为主成分，首先建立对主成分的MLR回归方程，然后还原为关于原自变量系统的PLS回归方程，其中 PLS方法的关键性技术是提取主成分，基本思想是首先，分别在和中提取第一主成分和，并且要求：代表性和应尽可能大地携带各自的变量系统中的变异信息. 相关性和的相关程度能够达到最大，即对因变量系统有很强的解释能力. 这两个要求表明，PLS方法主成分的提取同主成分分析中主成份的提取既有相似之处（代表性要求），又有不同（相关性要求）. 在第一个主成分和被提取后，分别实施 ①各自变量对自变量系统第一主成分的回归（即用表示）. ②各因变量对自变量系统第一主成分的回归（即用表示）. 如果回归方程已经达到满意的精度，则算法终止；否则，将利用被解释后的残余信息以及被解释后的残余信息进行第二轮的成分提取.如此往复，直到能达到一个较满意的精度为止. 3. PLS的算法步骤首先要进行预备分析，目的是判断自变量（因变量）是否存在多重相关性，判断因变量与自变量是否存在相关关系，进而决定是否需要采用PLS方法建模.具体计算方法是：记矩阵求的各列数据之间的简单相关系数. 然后，按下列步骤建立偏最小二乘回归方程： ? 标准化原始数据标准化后的数据矩阵记为和其中 ⑴ ⑵ 式⑴和⑵中，、分别为矩阵与的第列数据的平均值，、为矩阵与的第列数据的标准差. ? 主成分提取 a. 第一轮主成分提取求矩阵的最大特征值所对应单位特征向量得自变量的第1个主成分 ⑶ 求矩阵的最大特征值所对应单位特征向量得因变量的第1个主成分 ⑷ 求残差矩阵 ⑸ ⑹ 式⑸中式⑹

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

偏最小二乘回归分析.pptVIP