分析化学中多维数据剖析的新算法.pdf

分析化学中多维数据剖析的新算法

摘 要 摘 要 I . 器自动采集和传输成为易事,分析化学工作者面对的不再是几个或十几个数据,而是成 千上万个数据点构成的二维化学数据阵或三维化学数据阵。这些数据阵携带着大量的化 学信息,其中包括:体系中的化学组分数,各组份的纯光谱、纯色谱以及含量。然而要 从这些由成千上万个数据点构成的数据阵中提取以上有用的化学信息却不是靠分析化学 工作者的一双经验丰富的眼睛或通过简单的计算能够完成的,必须借助化学计量学算法 才能实现。 化学计量学理论与方法中,最有应用价值的可能是分析化学中的多维数据(二维 数据和三维数据)的解析。多维数据解析理论和方法的发展使人们对复杂化学体系的分 析能力有了质提高;使传统分析化学难以处理的复杂化学体系的实时、无扰动直接分析 成为可能。目前多维数据解析研究领域的一个重要趋势是利用化学体系的特点发展能够 适用复杂体系的化学计量学算法。^7 本文作者通过仔细分析当前化学计量学发展的方向,及其研究的热点。选取了二. 维化学数据分析及三维化学数据分析中的几个较为重要的问题进行了较为深入的研究、 完成了本论文。本论文主要涉及以下几个方面: 一、二维化学数据分枫K第一章一第三章):1)物质的紫外可见光谱和近红外 光谱是宽带吸收谱,呈现平滑的特征,即相邻数据点之间的变化较为缓慢,而噪声则呈 现粗糙的特征,即相邻数据之间的变化十分突兀而随机。这一化学数据的特点早已为化 学家所知。本文作者利用这一化学先验知识定义了度量特征向量粗糙度的粗糙度惩罚 量,来区分二维数据中代表物质光谱信息的主特征向量和代表噪声的次特征向量。由于 主特征向量代表物质平滑光谱的信息,其粗糙度惩罚量较小,粗糙度惩罚量对相应特征 值的影响也较小:次特征向量代表随机噪声,其粗糙度惩罚量较大,对相应特征值的影 响也较大。在这一理论的基础上,作者提出了RESO指数(平滑主成份特征值与普通主 成份对应特征值的比值)来判断二维数据中的主成份数(化学组分数)。该指数的综合 性能优良,适用于组分光谱之间的共线性较严重、含有微量组分或存在非等性噪声的体 系。2)另外,作者把物质的紫外可见光谱和近红外光谱具有平滑特征这一化学先验知 识完美地与固定窗口因子分析法结合了起来。发展了具有高灵敏度的平滑窗口因子分析 法。同时为了使该算法的计算速度与固定窗口因子分析法相当.提出了快速平滑窗口因 摘 要 子分析法。平滑窗口因子分析法能有效地抑制噪声的影响,适用于精确确定含有微量组 分或组分光谱之间的共线性较为严重的色谱体系中组份的流入、流出时刻;为二维色谱 数据的分辨提供了新的工具。 二、三维化学数据分析I¥第四章一第九章):1)针对PARAFAC收敛慢的缺 点,提出了优化三个具有密切内在联系,但并不完全等价的目标函数来避免优化过程陷 入所谓的“沼泽”区域,从而加速优化过程收敛的自加权交替三线性分解算法。该算法 的优化过程十分独特,不同于现有的其他采用压缩技术的快速三线性分解算法;它是从 改变目标函数的响应曲面来加速收敛。实验表明:该算法的收敛速度比PARAFAC算法 的收敛速度快几十倍。2)针对分析化学中三维数据的特殊结构(服从三线性分解模 型),提出了用于三线性数据阵中主因子数估计的ADD-ONE-UP法。该算法巧妙地结 合了二维因子分析及三线性分解所提供的信息来提高三线性数据阵主因子数估计的准确 性。ADDONE-UP法的操作简单.计算量适中、性能优良。能处理组分光谱之间共线 性严重或存在背景干扰的体系.3》在三维数据分析中常用的PARAFAC算法要求对体 系中的真实因子数作出准确的估计,否则其分解结果将是错误的。但分析化学工作者经 常会遇到难以估计真实因子数的三维数据。本文作者提出了伪交替最小二乘法来避免这 种麻烦。该算法不要求对三维数据阵的主因子数作准确的估计。只要在计算中所使用的 因子数大于体系中的真实因子数,就能够保证伪交替最小二乘法最终分解结果的正确 性。伪交替最小二乘法的这~性质使分析工作者能够从复杂繁琐的因子数估计的困境中 解脱出来。4)经过深入细致的研究,作者在比较温和的条件下,对伪交替最小二乘法 的以上性质提供了严格的数学证明,具体指出了赋予伪交替最小二乘法这一优势的主要 原因。该数学证明为设计具有同样性质的新型算法提供了理论指导。5)另外,为了提 高三线性分解算法在有模型偏差情况下的预测能力

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档