最小二乘法简介及程序.doc

下载文档 降价啦

7
0
约1.02万字
约 16页
2016-12-31 发布于重庆
举报
版权申诉
保障服务

最小二乘法简介及程序.doc

1、本文档共16页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

最小二乘法简介及程序

偏最小二乘回归是一种新型的多元统计数据分析方法，它与1983年由伍德和阿巴诺等人首次提出。近十年来，它在理论、方法和应用方面都得到了迅速的发展。密西根大学的弗耐尔教授称偏最小二乘回归为第二代回归分析方法。偏最小二乘回归方法在统计应用中的重要性主要的有以下几个方面：（1）偏最小二乘回归是一种多因变量对多自变量的回归建模方法。（2）偏最小二乘回归可以较好地解决许多以往用普通多元回归无法解决的.问题。在普通多元线形回归的应用中，我们常受到许多限制。最典型的问题就是自变量之间的多重相关性。如果采用普通的最小二乘方法，这种变量多重相关性就会严重危害参数估计，扩大模型误差，并破坏模型的稳定性。变量多重相关问题十分复杂，长期以来在理论和方法上都未给出满意的答案，这一直困扰着从事实际系统分析的工作人员。在偏最小二乘回归中开辟了一种有效的技术途径，它利用对系统中的数据信息进行分解和筛选的方式，提取对因变量的解释性最强的综合变量，辨识系统中的信息与噪声，从而更好地克服变量多重相关性在系统建模中的不良作用。（3）偏最小二乘回归之所以被称为第二代回归方法，还由于它可以实现多种数据分析方法的综合应用。偏最小二乘回归=多元线性回归分析+典型相关分析+主成分分析由于偏最小二乘回归在建模的同时实现了数据结构的简化，因此，可以在二维平面图上对多维数据的特性进行观察，这使得偏最小二乘回归分析的图形功能十分强大。在一次偏最小二乘回归分析计算后，不但可以得到多因变量对多自变量的回归模型，而且可以在平面图上直接观察两组变量之间的相关关系，以及观察样本点间的相似性结构。这种高维数据多个层面的可视见性，可以使数据系统的分析内容更加丰富，同时又可以对所建立的回归模型给予许多更详细深入的实际解释。一、偏最小二乘回归的建模策略\原理\方法 1.1建模原理设有 q个因变量{}和p自变量{}。为了研究因变量和自变量的统计关系,我们观测了n个样本点,由此构成了自变量与因变量的数据表X={}和.Y={}。偏最小二乘回归分别在X与Y中提取出成分和 (也就是说, 是的线形组合, 是的线形组合).在提取这两个成分时,为了回归分析的需要,有下列两个要求: (1) 和应尽可能大地携带他们各自数据表中的变异信息; (2) 与的相关程度能够达到最大。这两个要求表明，和应尽可能好的代表数据表X和Y,同时自变量的成分对因变量的成分又有最强的解释能力。在第一个成分和被提取后，偏最小二乘回归分别实施X 对的回归以及 Y对的回归。如果回归方程已经达到满意的精度，则算法终止；否则,将利用 X被解释后的残余信息以及Y 被解释后的残余信息进行第二轮的成分提取。如此往复，直到能达到一个较满意的精度为止。若最终对 X共提取了 m个成分，…，，偏最小二乘回归将通过实施对，…，，的回归,然后再表达成关于原变量，…，，的回归方程,k=1,2,…,q 。 1.2计算方法推导为了数学推导方便起见,首先将数据做标准化处理。X 经标准化处理后的数据矩阵记为=(，…，)，经标准化处理后的数据矩阵记为=(，…，)。第一步记是的第一个成分，是的第一个轴，它是一个单位向量，既||||=1。记是的第一个成分，=。是的第一个轴，并且||||=1。如果要，能分别很好的代表X与Y中的数据变异信息，根据主成分分析原理，应该有 Var()max Var()max 另一方面，由于回归建模的需要，又要求对有很大的解释能力，有典型相关分析的思路，与的相关度应达到最大值，既 r（，）max 因此，综合起来，在偏最小二乘回归中，我们要求与的协方差达到最大，既 Cov(，)=r(，) max 正规的数学表述应该是求解下列优化问题，既 s.t 因此，将在||||=1和||||=1的约束条件下，去求()的最大值。如果采用拉格朗日算法，记 s=－ (－1)－ (－1) 对s分别求关于，，和的偏导并令之为零，有 = －=0 (1 -2) = －=0 (1-3) =－(－1)=0 (1-4) =－(－1)=0 (1-5) 由式(1-2)~(1-5),可以推出记,所以,正是优化问题的目标函数值. 把式(1-2)和式(1-3)写成 (1-6)