[计算机]偏最小二乘法算法.docVIP

下载本文档

5
0
约8.04千字
约 13页
2018-03-11 发布于浙江
举报
版权申诉

[计算机]偏最小二乘法算法.doc

1、本文档共13页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

[计算机]偏最小二乘法算法

偏最小二乘法基本原理偏最小二乘法（PLS）是基于因子分析的多变量校正方法，其数学基础为主成分分析。但它相对于主成分回归（PCR）更进了一步，两者的区别在于PLS法将浓度矩阵Y和相应的量测响应矩阵X同时进行主成分分解： X=TP+E Y=UQ+F 式中T和U分别为X和Y的得分矩阵，而P和Q分别为X和Y的载荷矩阵，E和F分别为运用偏最小二乘法去拟合矩阵X和Y时所引进的误差。偏最小二乘法和主成分回归很相似，其差别在于用于描述变量Y中因子的同时也用于描述变量X。为了实现这一点，数学中是以矩阵Y的列去计算矩阵X的因子。同时，矩阵Y的因子则由矩阵X的列去预测。分解得到的T和U矩阵分别是除去了大部分测量误差的响应和浓度的信息。偏最小二乘法就是利用各列向量相互正交的特征响应矩阵T和特征浓度矩阵U进行回归： U=TB 得到回归系数矩阵，又称关联矩阵B： B=(TTT-1)TTU 因此，偏最小二乘法的校正步骤包括对矩阵Y和矩阵X的主成分分解以及对关联矩阵B的计算。 1.2主成分分析主成分分析的中心目的是将数据降维，以排除众多化学信息共存中相互重叠的信息。他是将原变量进行转换，即把原变量的线性组合成几个新变量。同时这些新变量要尽可能多的表征原变量的数据结构特征而不丢失信息。新变量是一组正交的，即互不相关的变量。这种新变量又称为主成分。如何寻找主成分，在数学上讲，求数据矩阵的主成分就是求解该矩阵的特征值和特征矢量问题。下面以多组分混合物的量测光谱来加以说明。假设有n个样本包含p个组分，在m个波长下测定其光谱数据，根据比尔定律和加和定理有： An×m=Cn×pBp×m 如果混合物只有一种组分，则该光谱矢量与纯光谱矢量应该是方向一致，而大小不同。换句话说，光谱A表示在由p个波长构成的p维变量空间的一组点（n个），而这一组点一定在一条通过坐标原点的直线上。这条直线其实就是纯光谱b。因此由m个波长描述的原始数据可以用一条直线，即一个新坐标或新变量来表示。如果一个混合物由2个组分组成，各组分的纯光谱用b1，b2表示，则有：有上式看出，不管混合物如何变化，其光谱总可以用两个新坐标轴b1,b2来表示。因此可以推出，如果混合物由p个组分组成，那么混合物的光谱就可由p个主成分轴的线性组合表示。因而现在的问题就变成了如何求解这些主成分轴。而寻找这些坐标轴的基本原则是使新坐标轴包含原数据的最大方差。即沿着新坐标轴的方向，使方差达到最大。而其他方向，使方差达到最小。从几何角度看，就是变量空间中所有的点到这个新坐标轴的距离最短。以二维空间的为例说明如何寻找主成分坐标轴。变量空间的每一个数据点（一个样本）都可以用通过该点与坐标原点的一个矢量xi表征。上图中直角三角形的三个边长分别以a,b,c表示，那么这n个点到第一个主成分轴v1距离的平方和可以通过勾股定理与矢量点积得出：因为与，所以 min 上式等价于 max （最大特征值λ）上式中v1表示第一个主成分轴矢量，即第一个特征矢量，所对应的最大值称为特征值，用λ1表示。从上面推导看出，寻找主成分轴就是求X矩阵的协方差矩阵XTX 中的最大特征值（λi）和特征向量（vi）。下面考虑变量数为m的一般情况。在m为空间中新变量可以表示为：其中系数矩阵V为 V= 用u和x分别表示新变量和原始矢量，则，上述m维主成分系数必须满足下面两个条件（1）正交条件：任意两个主成分uk、ur，其系数的乘积之和为0。（2）归一化条件：对于任一主成分系数的平方和等于1。满足这两个条件的矩阵，称之为正交矩阵。正交矩阵具有如下性质： 1.3 矩阵的主成分分解根据特征向量和特征值的定义 (*) 同时令X的协方差矩阵为 (*)式两边同时左乘vi，有主成分系数矩阵V也可写为因此可得其中表示一个对角矩阵，即对角线元素为，非对角线元素为0的矩阵。上式两边同时左乘VT，得令,则上式变为将式右乘得上式是矩阵X的主成分分解的一种表达式，由上式得求解T和V的方法依据矩阵乘法规则即可获得矩阵V和T中每一个矢量的计算公式：根据上面两个公式可以设计主成分分解的迭代法算法如下： (1) 取X中任意一列作为起始的t。 (2) 由此t计算： (3) 将vT归一化： (4) 计算新的t： (5) 比较步骤4所得的t和上一步的t。若二者相等（在给定的误差范围内），则按（）计算特征值，转第六步继续进行；否则返回第二步继续迭代。 (6) 从Y中减去的贡献：。返回1，继续运行，直到最后Y趋近于零。从理论上讲，在m空间中，可以获得m个主成分。但是在实际应用中一般只取前几个对方差贡献最大的主成分，这样就使高维空间的数据降到低维，如二维或三维空间，非常有益于数据的观察，同