数据的预处理方法20号.docVIP

下载本文档

15
0
约2.31万字
约 31页
2018-01-09 发布于湖北
举报
版权申诉

数据的预处理方法20号.doc

1、本文档共31页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据的预处理方法20号

第六章几种常见的数据预处理方法 6.1数据归一化、标准化和变换方法 6.1.1数据归一化化学中经常通过对事物进行量测所获得的数据来了解事物，这里的数据就是模式的各个特征变量的测量值，这些测量值可用各种不同的仪器、方法获得，因而不仅其量纲不一样，其绝对值大小有时也会有几个数量级之差。如研究宇宙铁陨石试样的分类，以样本中各种元素的含量作为特征变量，其中镍含量约为50000μg／g数量级，而镓含量在50μg／g数量级。这时，如镓含量变化10μg／g，其影响与镍含量变化10000μg／g相当。所以若原始数据不经预处理直接用于分类，则镓含量的变化对分类的影响将完全被镍含量的波动所掩盖。还有有的数据甚至没有计量性质(如颜色分为红、黄、白等)，如将这些数据不加处理，直接用来分类，可能会得到错误的结果［7-29］。因此在模式识别分类前必须首先对化学原始数据进行预处理。常用的数据预处理方法有［7-30］:。下面我们首先介绍数据归一化方法。 (1)数值归一化法当数据包含不同量纲的多种变量时，数值间的差别可能很大，例如有些有机酸的离解常数(pKa)数值大约为个位数或为负数，沸点数据则约为几十摄氏度或数百摄氏度。再如所采用的单位不同，数据的大小也会有很大的差别，如毫摩尔浓度与摩尔浓度相差1000倍。如果将这种不同种类、不同量纲、数值大小差别很大的数据组合在一起进行模式识别，势必会影响到正确的分类。常用的解决方法就是对数据进行数值归一化。数值归一化就是把各个变量的数据都线性地变换到一个新的标尺上，在新标尺上，每个变量的最大值都为1。第i个变量数值归一化公式为式中xi,old为原始数据；xi,new为变换后的新数据；xmax为原始数据中的最大值；n为数据中变量个数。该变换保证了各变量的数据都≤1。有时为了将数据规范为0～1之间的数值，即变换后数据的最小值为0，最大值为1，也常用下述公式进行预处理：式中，xmin为原始数据中的最小值。数值归一化可以保证各变量的变化幅度处于同一水平上，从而消除了数据本身差别带来的影响。但其缺点是，若数值集合中有一个数值很大，则其余各值都会相差不大。 (2)方差归一化法方差可以用来描述变量的变化幅度，而在处理化学数据时，有时我们更关注数据的变化幅度，因此从方差这个角度进行数据归一化就是方差归一化方法，常用下面的公式进行变换，式中，m为变量i的均值；Vj为该变量的方差。经变换后的数据方差为1，它保证了各变量的方差一致，各变量在分类过程中影响程度相同。数据的标准化（normalization）是将数据按比例缩放，使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到，去除数据的单位限制，将其转化为无量纲的纯数值，便于不同单位或量级的指标能够进行比较和加权。min-max标准化(Min-max normalization) 也叫离差标准化，是对原始数据的线性变换，使结果落到[0,1]区间，转换函数如下： (6-4) 　　其中max为样本数据的最大值，min为样本数据的最小值。这种方法有一个缺陷就是当有新数据加入时，可能导致max和min的变化，需要重新定义。 log函数转换通过以10为底的log函数转换的方法同样可以实现归一下，具体方法如下： (6-5) 　　很多介绍都x*=log10(x)，其实是有问题的，这个结果并非一定落到[0,1]区间上，应该还要除以log10(max)，max为样本数据最大值，并且所有的数据都要大于等于1。 atan函数转换　用反正切函数也可以实现数据的归一化： (6-6) 使用这个方法需要注意的是如果想映射的区间为[0,1]，则数据都应该大于等于0，小于0的数据将被映射到[-1,0]区间上。而并非所有数据标准化的结果都映射到[0,1]区间上，其中最常见的标准化方法就是Z标准化，也是SPSS中最为常用的标准化方法z-score 标准化(zero-mean normalization) 也叫标准差标准化，经过处理的数据符合标准正态分布，即均值为0，标准差为1，其转化函数为： (6-7) 其中μ为所有样本数据的均值，σ为所有样本数据的标准差。 (1)加权变换法归一化方法是把各个变量对分类的影响都拉到同一个水平上，而加权变换则是人为地加大某个，或某些变量的影响。其做法就是在不同的变量上乘以不同的权值，权值越大影响越大。当然，权值不能随便加，一般要根据专家的意见，或经验等来选择。 (2)变量变换法变量变换就是对原变量进行某些数学变换，常用的数学变换包括