偏最小二乘回归分析.pptVIP

  • 224
  • 0
  • 约3.27千字
  • 约 39页
  • 2017-02-15 发布于江西
  • 举报
* 偏最小二乘回归分析 2.PLS的数据结构与建模思想 4.PLS的辅助分析 5.应用范例与MATLAB实现 Partial Least-squares Regression Analysis 1.引言 3.PLS的算法步骤 1. 引言 ? 多元线性回归分析的困惑 多元线性回归分析(MLR)是研究变量之间相关关系的 基本方法.但是,下列两个问题制约着其应用的效能: ①样本容量要求很高,一般应大于30或大于自变量数 的5-10倍. ②消除变量间多重相关性很难. 若在变量间存在严重多重相关性,将对回归建模与模 型分析工作带来如下危害: Ⅰ.在自变量间存在严重多重相关性的情况下,将造成 模型的正规方程系数矩阵的严重病态性,进而使模型参数 的最小二乘估计失真. 回归系数 的估计方差将随着自变量 之间相关程度的不断增强而迅速扩大,回归系数的估计值 对样本数据的微小变化变得非常敏感,回归系数估计值的 稳定性将变得很差. Ⅱ.在自变量高度相关条件下,用最小二乘法得到的回 归模型,其回归系数的物理含义很难解释. 许多从专业知识 上看似乎是十分重要的变量,其回归 系数的取值变得微不 足道,甚至还会出现回归系数的符号与人们的实际概念完 全相反的现象. Ⅲ.存在严重的多重共线性影响时,回归系数的统计检 验将难以通过. 由于多重共线性所造成后果的严重性,所以回归建模 过程中必须要解决多重共线性问题. 常见的方法是用逐步回归法来进行变量的筛选,去掉 不太重要的相关性变量.然而,逐步回归法存在下列问题: Ⅰ.缺乏对变量间多重相关性进行判定的十分可靠的检验 方法. Ⅱ.删除部分多重相关变量的做法常导致增大模型的解释 误差,将本应保留的系统信息舍弃,使得接受错误结论的可 能以及做出错误决策的风险不断增长. 在克服变量多重相关性对系统回归建模干扰的努力中, 1983年瑞典伍德(S.Wold)、阿巴诺(C.Albano)等人提出了 偏最小二乘回归分析(Partial Least squares Regression ,PLS)方法,它开辟了一种有效的技术途径,在处理样本 容量小、解释变量个数多、变量间存在严重多重相关性问 题方面具有独特的优势,并且可以同时实现回归建模,数 据结构简化以及两组变量间的相关分析. 2. PLS的数据结构与建模思想 ? 数据结构 设有 个因变量 与 个自变量 为了研究因变量与自变量的统计关系,观测了 个样本点, 由此分别构成了自变量与因变量的“样本点×变量”型的 数据矩阵,记为 和 ? 建模思想 PLS方法在建模过程中采用了信息综合与筛选技术. PLS方法不直接考虑因变量系统 对自变量系统 的回归建模,而是从自变量系统 中逐步提取 个对自 变量系统 和因变量系统 都具有最佳解释能力的新综 合变量 亦称之为主成分,首先建立 对 主成分 的MLR回归方程,然后还原为 关于原 自变量系统 的PLS回归方程,其中 PLS方法的关键性技术是提取主成分,基本思想是 首先,分别在 和 中提取第一主成分 和 ,并且要求: 代表性 和 应尽可能大地携带各自的变量系 统中的变异信息. 相关性 和 的相关程度能够达到最大,即 对因变量系统有很强的解释能力. 这两个要求表明,PLS方法主成分的提取同主成分分 析中主成份的提取既有相似之处(代表性要求),又有不 同(相关性要求). 在第一个主成分 和 被提取后,分别实施 ①各自变量对自变量系统第一主成分的回归(即用 表示 ). ②各因变量对自变量系统第一主成分的回归(即用 表示 ). 如果回归方程已经达到满意的精度,则算法终止;否 则,将利用 被 解释后的残余信息以及 被 解释 后的残余信息进行第二轮的成分提取.如此往复,直到能达 到一个较满意的精度为止. 3. PLS的算法步骤 首先要进行预备分析,目的是判断自变量(因变量) 是否存在多重相关性,判断因变量与自变量是否存在相关 关系,进而决定是否需要采用PLS方法建模.具体计算方法 是:记矩阵 求 的各列数据之间的简单相关系 数. 然后,按下列步骤建立偏最小二乘回归方程: ? 标准化原始数据 标准化后的数据矩阵记为 和 其中 ⑴ ⑵ 式⑴和⑵中, 、 分别为矩阵 与 的第 列数据的 平均值, 、 为矩阵 与 的第 列数据的标准差. ? 主成分提取 a. 第一轮主成分提取 求矩阵 的最大特征值所对应单位特征向量 得自变量的第1个主成分 ⑶ 求矩阵 的最大特征值所对应单位特征向量 得因变量的第1个主成分 ⑷ 求残差矩阵 ⑸ ⑹ 式⑸中 式⑹

文档评论(0)

1亿VIP精品文档

相关文档