偏最小二乘方法内容资料.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
偏最小二乘方法内容资料.ppt

(4) h α(主成分数)到步(5),否则到步(3)。 (5) 得到的Y为已经标准化,因此需按照标准化步骤的相反操作,将之恢复到原始坐标。 4.关于主成分数 若X和Y间关系符合线性模型,则描述模型的主成分数应与模型的维数相等。主成分数是偏最小二乘模型的重要性质。 由于测试数据一般隐含噪声,故主成分数通常与X的秩不相等。如前已述及,在实际问题的处理中,总是要消去一些因子(成分), 因为这些因子所表征的主要是测试误差、噪声及由于变量间相关所引起的共线问题等。 确定主成分数的一种方法是以式(6.8)中Fh的模数为判据。图6.3为模数 对主成分数所得关系曲线,可以选定某值作为门限,当 小于此值时,则停止迭代。 图6.3 与偏最小二乘中因子书的关系 另一种方法是运用F 检验来测试内在相关性(inner relation)以确证所建立的模型。 再一种方法为交叉验证法。在这种方法中计算一统计量PRESS(prediction residual sum of squares),即预测残差之平方和。如图6.4所示,显然,人们总是希望采用某一主成分数时所产生的PRESS为最小。但最小的位置常难以准确确定。用这种方法确定主成数非常类似于测定下限的概念。所谓测定下限即在噪声存在下最小可以检出的信号。在图6.4的情况下,因子数可取4—8。 图6.4 PRESS与因子数的关系 5. 应用实例—腐植酸和木质磺酸盐的荧光分光光度分析[5] 磺酸木质素(ligninsulfonate)是水中的一种污染物,可用荧光分光光度法测定.尽管此种方法具有高灵敏度和高选择性,但在磺酸木质素的测试中腐植酸和去污剂中的光白剂(optical whitener)对其严重干扰。这三种化合物的发射光谱重叠非常严重(见图6.5).由图可见,没有一个区域仅为一种化合物所具有的发射光谱. 图6.5 腐植酸(– — –),磺酸木质素(- - - -)和去污剂(——)的发射光谱(均由纯物质测试所得) 第六章 偏最小二乘方法 偏最小二乘方法(PLS-Partial Least Squares))是近年来发展起来的一种新的多元统计分析法, 现已成功地应用于分析化学, 如紫外光谱、气相色谱和电分析化学等等。该种方法,在化合物结构-活性/性质相关性研究中是一种非常有用的手段。如美国Tripos公司用于化合物三维构效关系研究的CoMFA (Comparative Molecular Field Analysis)方法, 其中,数据统计处理部分主要是PLS。在PLS方法中用的是替潜变量,其数学基础是主成分分析。替潜变量的个数一般少于原自变量的个数,所以PLS特别适用于自变量的个数多于试样个数的情况。在此种情况下,亦可运用主成分回归方法,但不能够运用一般的多元回归分析,因为一般多元回归分析要求试样的个数必须多于自变量的个数。 § 6.1 多元线性回归(MLR) 若自变量为m个,xj (j=1,2,…,m),因变量为y,在y与xj间,我们可以建立一线性模型,即 (6.1a) (6.1b) (6.1c) 在式中,bj为回归系数。 在式(6.1)中仅有一个试样,若有n个试样,即为yi (i=1,2,…,n),它的列向量形式为y ,b与原来相同,矢量xj’为矩阵X的行,则: y = Xb + e 若用图形表示,则为: y = X B + e 1 m 1 1 n n n m 在此情况下,n为试样数,m为自变量数。有如下三种情况: (1) mn,即变量数多于试样数,对于b来说,则有无穷多个解。 (2) m=n,变量数与试样数相等,若矩阵X满秩时,则矢量b有唯一解。但是,在实际工作中,这种情况是极少能碰到的。此时我们有: e = y –Xb =0 (3)mn,变量数小于试样数,尽管我们得不到准确解b,但是可以使残差矢量e尽可能小而得到解, e = y – Xb 这就是我们所熟知的最小二乘法。其解为: (6.2) 在上边的叙述中,因变量为1个,而事实上可以有多个因变量。如有两个因变量y1和y2,我们可以简单地写成两个线性方程: y1=Xb1+ e ; y2=Xb2+ e 若用矩阵标表示,则: 由此得到 Y = XB + E 对于2-P 个因变量的图形表示为: Y = X B + E 2-p 2-p 2-p n m n m n 最小二乘的解为: (6.3) 多元线性回归应用很广泛,因为在许多情况下该种方法具有良好的性能。但是,此种方法

文档评论(0)

186****7785 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档