通用化学计量学软件必备算法仪器信息网.docVIP

下载本文档

5
0
约1.06万字
约 9页
2017-09-11 发布于天津
举报
版权申诉

通用化学计量学软件必备算法仪器信息网.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

通用化学计量学软件必备算法仪器信息网

1 通用化学计量学软件必备算法为解决分析人员处理化学仪器分析数据中各种可能碰到的问题，保证化学计量学软件须在功能上具有完备性，这就要求软件开发人员必须对化学计量学和仪器分析领域有深入的了解。下图是介绍分析需求与软件功能设计中的关系。软件的功能是根据建立多元校正模型过程中遇到的所有处理数据的环节中遇到的问题进行设计的，主要包括，建模的之前需要对偏离整体的一些奇异样本进行剔除以保证模型的稳健性；为了检验模型的有效性应该对样本划分为训练集和预测集需要的样本划分的方法；数据中不可避免存在的噪声、背景、漂移、颗粒大小影响等问题或者多元校正方法中需要的标度化方法等需要有数据预处理方法；为建立稳健和更加简洁的模型中需要的变量选择的方法；最终是为预测未知物中感兴趣的指标的回归和对未知物类别归属的多元校正方法。下面介绍的是在整个多元模型建立的过程中的步骤及所属的经典算法的关系图，如图1-1所示。图1-1 建模步骤及经典算法的关系图 1.1 奇异样本检测实验数据中经常包含一种或多种类型的奇异样本。奇异样本表现为偏离通常的假定或主体样本所显示出来的模式，因此它们并不适合当前所建模型。于是将奇异样本检测并剔除出建模集成是建立化学计量学模型过程中不可或缺的一项重要工作环节。由于奇异或杠杆点具有很强的相互掩蔽效应，掩蔽了真正的奇异和杠杆点定量分析建模基于蒙特卡洛采样的奇异样本检测法马氏距离(Mahalanobis Distance)：马氏距离是由印度统计学家马哈拉诺比斯(P. C. Mahalanobis) [1, 2]提出。如样本服从多元正态分布，一般还可采用Mahalanobis距离，习惯上称为马氏距离。马氏距离如果样本落在同一分布之中，则其与整体分布的马氏距离将很小，如果样本落在分布之外，则其与整体的马氏距离将很大，分布的方差在马氏距离的定义中起到至关重要的作用。帽子矩阵(Hat Matrix)：帽子矩阵H[3]是一种基于多元线性回归的回归诊断方法。在回归分析中，靠近数据中心的点的一般都比较小，它们的方差也很接近于，但是对于一些X空间的边界点，其都较大，此时它们的方差却较小，这就意味着这些点的残差较小，模型明显偏向它们，所以它们就构成了对模型有显著影响的点，故称为强影响点，也称高杠杆点（leverage points）。一般说来，当大于它的平均值 (m/n) 的两倍或三倍时，可认为第 i 个量测值所对应的是一个强影响或称为高杠杆点。该法基于模型集群分析技术，提出了基于模型集群分析的蒙特卡洛方法用于检测奇异样本的方法[4]数据进行了N次采样（sampling）；由于每次采样时，只随机取了部分样本，一般可取样本点的70-80%，然后用这些样本作为训练集建模，并对没参与建模的样本进行预测误差的计算。这样，经过几千次的随机采样，每个样本点都可得到其预测误差的一个分布由于奇异点与非奇异点在模型中存在差异，我们就可以通过其预测误差的分布不同来将它们进行有效地区分样本划分是为了更好得选择可以代表整体特征的样本来进行化学计量学建模，其目的为对新样本进行准确预测。。为了满足上述要求，必须用有效的算法从样品中选择有代表性的建模集，从而能尽可能广阔的覆盖化学成分变动范围。常见样本划分算法有：随机划分、K-S方法和SPXY方法等。随机划分（Random Partition）组成训练集。 K-S方法由Kennard提出[5]首先计算从第i个样本向量到j样本向量的欧氏距离dij；先选择欧氏距离最远的两个向量对进入 SPXY方法（Sample Partitioning based on joint X–Y distances, SPXY）Galv?o等提出[6]， 1.3 信号预处理在实际量测数据中，数据中常存在着噪声、背景、奇异样本、漂移等存在，增加了化学计量模型的难度，影响模型预测的精度，所以一般需要对数据进行预处理。预处理方法的目的在于建立一个能保证预测质量的稳健校正模型。分析信号预处理方法有多种，主要包括：减少由分析信号点与点之间振幅的随机变化而引起的随机噪声抑制由有机分子和污染物产生的荧光背景基线校准提高光谱分辨率和消除背景吸收不同单位的变量归到相同的范围平滑是一种预处理方法，旨在捕捉光谱中的重要信息而降低噪声。它能减少随机噪声，提高光谱的信噪比(SNR)。 SG平滑(Savitzky-Golay)：Savitzky–Golay平滑法由Abraham Savitzky和Marcel J. E. Golay [7] 于1964年提出。此方法在分析化学中极富盛名的平滑算法。Savitzky–Golay平滑法相当于在具有至少2k+1个波谱点的窗口中对其中的一系列波谱点执行局部多项式回归（k阶）以确定每个点的平滑值，波谱点等距并有精确的x值。窗