化学软件基础-第3章-第6节-Matlab应用实例-化学计量学.ppt

下载文档 降价啦

19
0
约1.34万字
约 44页
2019-11-30 发布于福建
举报
版权申诉
保障服务

化学软件基础-第3章-第6节-Matlab应用实例-化学计量学.ppt

1、本文档共44页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

数据中哪个样本是奇异样本是未知的，但是，我们可以通过奇异样本与正常样本的性质差异，建立大量的模型，然后通过统计参数把奇异样本选择出来，这就是基于蒙特卡罗交叉验证（MCCV）的一类奇异样本识别方法。利用MCCV随机划分校正集与预测集，如果奇异样本在校正集中，整个模型的质量将受到影响；相反，如果奇异样本在预测集中，仅此样本的预测结果受到影响。尽管两种情况对预测结果都有影响，但效果明显不同。本课题组[136]就利用奇异样本出现在校正集或预测集时模型预测误差的差异，通过MCCV及统计分析来进行奇异样本的识别。而梁等[137]根据预测集中奇异样本的预测残差会明显大于正常样本的预测残差也提出了一种基于MCCV的奇异样本识别方法。基于MCCV的奇异样本识别方法充分利用统计学的性质，有望在奇异样本检测中得到更广泛的应用。 * * 数据规范化方法包括数据中心化、归一化和标准化。其中，数据中心化和标准化是最常用的两种规范化方法，使用这两种方法需要对光谱数据和样本性质数据同时进行变换。数据中心化（mean centering）是从每个光谱数据中减去所有样本光谱的平均值，使得数据的变化以平均值为原点，从而充分反映光谱的变化信息，可以简化并稳定下一步回归模型的计算。数据归一化（normalization）是把量纲不同、范围各异的数据化为（0-1）之间无量纲的数。数据归一化包括最大归一化、最小归一化、最大最小归一化和平均值归一化。归一化能使后续的数据处理更加方便。数据标准化（standardization）又称为均值方差化或方差归一化，用每列数减去该列数的平均值再除以该列的方差。经过标准化处理后的光谱矩阵每列元素均值为0，方差和标准偏差都为1。标准正态变量（standard normal variate, SNV）[11,12]用来校正样本中因颗粒散射、光程变化而引起的光谱误差。SNV认为每条光谱中各波长点的吸光度值应满足一定的分布（如正态分布）[20]，利用这一假设对每条光谱进行校正，即从原始光谱中减去该光谱的平均值后，再除以该光谱的标准偏差。多元散射校正（multiplicative scatter correction, MSC）由Geladi等[13]在1983年提出，用于消除样本颗粒分布不均匀及颗粒大小不同而产生的散射对其光谱的影响。MSC假定所有样本在各波长点具有相同的散射系数，并且每条光谱都应该与“理想”光谱成线性关系。显然能代表所有样本的理想光谱并不存在，一般用校正集的平均光谱来代替。因此，MSC算法中首先计算所有光谱的平均光谱，然后用线性回归方程拟合每条光谱与平均光谱的关系，最后从每条光谱中扣除其截距并除以其斜率，得到校正后的光谱。光谱的一阶导数（1st derivation）和二阶导数（2nd derivation）是常用的背景扣除方法。以上几种预处理方法，只对光谱数据进行处理，并未考虑浓度向量的影响，所以极有可能损失部分对建模有用的信息。1986年，以色列化学家Lorber提出的纯分析信号（net analyte signal, NAS）方法[36]可解决此类问题，该方法通过正交投影的方式除去光谱矩阵中与待测组分无关的信息。正交信号校正算法（orthogonal signal correction, OSC）也是有浓度矩阵参与的一种预处理方法。1998年，S Wold等[41]首次提出正交信号校正的思想，并将其用于光谱无用信息的滤除。其基本原理是将光谱矩阵用浓度向量正交，滤除光谱中与浓度向量无关的信号，再进行多元校正。 * 使用60个鸡蛋的鸡蛋清作为基质，人工加入8种尿液中的代谢物。代谢物的浓度采用正交试验设计，得到90个生物样本，其中60个样本用来建模，30个样本用来验证模型的预测能力。测这些样本的拉曼光谱。从图中可以观测到一些基团的拉曼光谱峰。但是，我们只能找到这些峰对应的基团，没法把这些峰与八种代谢物组分一一对应。所以，无法采用某个或某几个峰的强度或面积来预测每种组分的含量。因此，必须采用多元校正方法进行建模。另外，从图中也可以看出，光谱中背景和噪音较大。首先使用平滑、SNV、MSC、一阶导数、二阶导数和CWT对校正集光谱进行预处理。处理后的光谱如图所示，平滑减弱了噪音的影响，SNV和MSC起到了背景校正的作用，而求导和CWT则起到背景扣除的作用。 * * 那么为什么要进行波长变量的筛选呢？波长筛选能够只挑有用的变量建模，NIRS由数百或数千个波长点构成，建模时波长点数远远多于样本个数。而且光谱数据不仅包含了样品组成和结构信息，还包含了噪音、背景及其它系统干扰信息。使得近红外谱图信息复杂化，在有些情况下甚至会淹没待测物质的信号信息，从而极大地影响了校正模型的建立。所以挑选代表样本特征信息的重要波长，去除无用变