2025《光谱数据的预处理方法综述》3000字.docxVIP

2025《光谱数据的预处理方法综述》3000字.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

光谱数据的预处理方法综述

傅里叶变换红外光谱的数据主要是由被测大米的红外光谱特征主导的,同时采集又受到外界环境的影响较大,众多不确定因素造就了采集得到的近红外光谱信号的复杂性。在近红外光谱数据中,除了样品的自身有用信息外,不可避免会含有其它无关噪声,这些噪声的存在会影响数据的分析和模型的建立。为了消除各种噪声对光谱信号分析的影响,需要通过适当的预处理手段对光谱数据进行降噪,以便减少各种后续操作的错误率,提高光谱的信噪比,进而提升所建立近红外光谱模型的准确性和预测精度,改善光谱分析信号的性能。但光谱数据去噪只是光谱数据预处理中最基本的方法之一。

近红外光谱信号的常用的预处理方法主要还有以下几种:

1、主线校正

主线校正顾名思义即通过设置不同的主线使被测得到的光谱曲线消除偏移的方法,可以利用全光谱的数据减去其中的最低值,即所谓借助常偏移量进行消除。还可以利用全光谱数据按照最小二乘法原理拟合一条直线,然后用全部数据减去该直线,进而完成主线校正。该类型方法通常已经封装在光谱仪内部,得到的结果也已进行过相应处理,故该类型方法通常不体现在外部数据处理的MATLAB代码中。

图3-1原始数据光谱图

2、坐标图转换

由于光谱采集软件默认使用透过率作为纵坐标,在计算时为了与文献保持一致,需要先将透过率转化为吸光度,再进行其他光谱前处理。MATLAB语句是:x=2-log10(x)。

图3-2透光率转吸光度后光谱图

限定范围使用的是MATLAB内自带的函数mapminmax,这是一种会规定函数上限与下限的函数,在训练模型的时候,能够避免因数据值过大或过小造成的误差,所以该方法使用非常广泛,同时MATALB自带该算法语句,侧面也说明了使用的频繁程度。

图3-3限定范围后光谱图

3、数据增强型处理

采用偏最小二乘法和支持向量机建立近红外光谱分类模型时,光谱数据的变化程度会与待测大米产地或组成成分的波动进行互联。因此,该类方法的主要目的是扩大不同产地大米近红外光谱数据之间的差异,同时还可以削减无关信号的影响作用,进而提高后续模型的预测精度。常用的数据增强型处理方法有归一化、标准化、平均化以及正态变量交化等。

归一化的原理是用向量自身去除以向量模长,即使原向量同比例缩小到1个单位长度;标准化与归一化类同,不同的是标准化目的是使原向量的均值变为0;而正态变量交化的目的是为了让数据符合正态分布的形式。他们的本质意义都是要让纵坐标(透过率)幅度上的微小差异不会被单次测量之间的误差所掩盖。

平均化同样也是一种使用广泛的预处理方法,即将多个样品数据的值求平均值。这种预处理手段能够有效避免因操作失误或者是环境波动所引起的个别测量误差,但这样做的缺点是会导致训练数据数量的下降。平均化以及标准化这两种方法在数据预处理领域使用频繁,值得注意的是,在对近红外光谱数据进行预处理的同时,这两种方法也会对被测数据的性质或组成进行同样的变换。

正态变量交化是在1998年首次由SvanteWold等人提出,该方法原理是利用正交化方法去除原始数据中与测量无关的数据,是目前使用最广的光谱数据预处理方法之一。

图3-4平均化(上左)、标准化(上右)、归一化(下左)、

正态变量交化(下右)后的光谱图

4、平滑处理

由于近红外光谱采集仪器设备本身的问题,或是周围环境的波动等原因,会导致光谱信号中含有不同程度的噪声。噪声的存在会影响后续模型的预测精度,所以需要进行去噪处理,信号平滑就是常见的去噪手段,最终达到提高信号信噪比的目标。

滑动平均平滑法中主要的是如何选择一个合适的窗口宽度,常用的有五点平滑法,五点平滑法的理论依据是利用五个连续的数据点作为一个滑动窗口,将窗口包含的五个数据进行特殊处理来获得一个新的数据点,五点平滑的算法是可以根据自我需求进行自行修改的。需要注意的是,由于原信号的前2个点和后2个点处,不足以凑够5个点,所以需要使用特殊且规定好的平滑规则;而从第三个点到倒数第三个点,使用的则是另外一种算法。

例如,采用如下处理方式,其中b(k)为各数据点,其前两个数据点和中间各点以及后两个数据点的规定算法如下图3-5所列:

图3-5五点平滑算法内部程序语句

下面分别用10次、100次来平滑数据,得出结果如图所示,蓝色为原始数据、红色为平滑10次、绿色为平滑100次,观察可以发现,数据随处理次数增加变得更加平滑。

图3-6五点平滑后光谱图

但是,滑动平均平滑法正是由于其本质只是简单的加权平均算法这样的处理原理,会导致以下一些问题:如果滑动窗口包含的数据太少,就会使得平滑效果较差,去噪不够明显;如果滑动窗口包含的数据太多,就会导致处理过度,缺失有用信息,导致失真。

Savitsky-Golay卷积平滑法的本质也是一种利用多数据点平滑的方法,这一点与滑动平均平滑法一致,不同的是,前者需要通

文档评论(0)

02127123006 + 关注
实名认证
文档贡献者

关注原创力文档

1亿VIP精品文档

相关文档