数据的预处理方法20号.docVIP

  1. 1、本文档共31页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据的预处理方法20号

第六章 几种常见的数据预处理方法 6.1数据归一化、标准化和变换方法 6.1.1数据归一化 化学中经常通过对事物进行量测所获得的数据来了解事物,这里的数据就是模式的各个特征变量的测量值,这些测量值可用各种不同的仪器、方法获得,因而不仅其量纲不一样,其绝对值大小有时也会有几个数量级之差。如研究宇宙铁陨石试样的分类,以样本中各种元素的含量作为特征变量,其中镍含量约为50000μg/g数量级,而镓含量在50μg/g数量级。这时,如镓含量变化10μg/g,其影响与镍含量变化10000μg/g相当。所以若原始数据不经预处理直接用于分类,则镓含量的变化对分类的影响将完全被镍含量的波动所掩盖。还有有的数据甚至没有计量性质(如颜色分为红、黄、白等),如将这些数据不加处理,直接用来分类,可能会得到错误的结果[7-29]。因此在模式识别分类前必须首先对化学原始数据进行预处理。常用的数据预处理方法有[7-30]:。下面我们首先介绍数据归一化方法。 (1)数值归一化法 当数据包含不同量纲的多种变量时,数值间的差别可能很大,例如有些有机酸的离解常数(pKa)数值大约为个位数或为负数,沸点数据则约为几十摄氏度或数百摄氏度。再如所采用的单位不同,数据的大小也会有很大的差别,如毫摩尔浓度与摩尔浓度相差1000倍。如果将这种不同种类、不同量纲、数值大小差别很大的数据组合在一起进行模式识别,势必会影响到正确的分类。常用的解决方法就是对数据进行数值归一化。数值归一化就是把各个变量的数据都线性地变换到一个新的标尺上,在新标尺上,每个变量的最大值都为1。第i个变量数值归一化公式为 式中xi,old为原始数据;xi,new为变换后的新数据;xmax为原始数据中的最大值;n为数据中变量个数。该变换保证了各变量的数据都≤1。有时为了将数据规范为0~1之间的数值,即变换后数据的最小值为0,最大值为1,也常用下述公式进行预处理: 式中,xmin为原始数据中的最小值。数值归一化可以保证各变量的变化幅度处于同一水平上,从而消除了数据本身差别带来的影响。但其缺点是,若数值集合中有一个数值很大,则其余各值都会相差不大。 (2)方差归一化法 方差可以用来描述变量的变化幅度,而在处理化学数据时,有时我们更关注数据的变化幅度,因此从方差这个角度进行数据归一化就是方差归一化方法,常用下面的公式进行变换, 式中,m为变量i的均值;Vj为该变量的方差。经变换后的数据方差为1,它保证了各变量的方差一致,各变量在分类过程中影响程度相同。 数据的标准化(normalization)是将数据按比例缩放,使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。min-max标准化(Min-max normalization) 也叫离差标准化,是对原始数据的线性变换,使结果落到[0,1]区间,转换函数如下: (6-4)   其中max为样本数据的最大值,min为样本数据的最小值。这种方法有一个缺陷就是当有新数据加入时,可能导致max和min的变化,需要重新定义。 log函数转换 通过以10为底的log函数转换的方法同样可以实现归一下,具体方法如下: (6-5)   很多介绍都x*=log10(x),其实是有问题的,这个结果并非一定落到[0,1]区间上,应该还要除以log10(max),max为样本数据最大值,并且所有的数据都要大于等于1。 atan函数转换  用反正切函数也可以实现数据的归一化: (6-6) 使用这个方法需要注意的是如果想映射的区间为[0,1],则数据都应该大于等于0,小于0的数据将被映射到[-1,0]区间上。而并非所有数据标准化的结果都映射到[0,1]区间上,其中最常见的标准化方法就是Z标准化,也是SPSS中最为常用的标准化方法z-score 标准化(zero-mean normalization) 也叫标准差标准化,经过处理的数据符合标准正态分布,即均值为0,标准差为1,其转化函数为: (6-7) 其中μ为所有样本数据的均值,σ为所有样本数据的标准差。 (1)加权变换法 归一化方法是把各个变量对分类的影响都拉到同一个水平上,而加权变换则是人为地加大某个,或某些变量的影响。其做法就是在不同的变量上乘以不同的权值,权值越大影响越大。当然,权值不能随便加,一般要根据专家的意见,或经验等来选择。 (2)变量变换法 变量变换就是对原变量进行某些数学变换,常用的数学变换包括

您可能关注的文档

文档评论(0)

wyjy + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档