- 1、本文档共31页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据的预处理方法20号
第六章 几种常见的数据预处理方法
6.1数据归一化、标准化和变换方法
6.1.1数据归一化
化学中经常通过对事物进行量测所获得的数据来了解事物,这里的数据就是模式的各个特征变量的测量值,这些测量值可用各种不同的仪器、方法获得,因而不仅其量纲不一样,其绝对值大小有时也会有几个数量级之差。如研究宇宙铁陨石试样的分类,以样本中各种元素的含量作为特征变量,其中镍含量约为50000μg/g数量级,而镓含量在50μg/g数量级。这时,如镓含量变化10μg/g,其影响与镍含量变化10000μg/g相当。所以若原始数据不经预处理直接用于分类,则镓含量的变化对分类的影响将完全被镍含量的波动所掩盖。还有有的数据甚至没有计量性质(如颜色分为红、黄、白等),如将这些数据不加处理,直接用来分类,可能会得到错误的结果[7-29]。因此在模式识别分类前必须首先对化学原始数据进行预处理。常用的数据预处理方法有[7-30]:。下面我们首先介绍数据归一化方法。
(1)数值归一化法
当数据包含不同量纲的多种变量时,数值间的差别可能很大,例如有些有机酸的离解常数(pKa)数值大约为个位数或为负数,沸点数据则约为几十摄氏度或数百摄氏度。再如所采用的单位不同,数据的大小也会有很大的差别,如毫摩尔浓度与摩尔浓度相差1000倍。如果将这种不同种类、不同量纲、数值大小差别很大的数据组合在一起进行模式识别,势必会影响到正确的分类。常用的解决方法就是对数据进行数值归一化。数值归一化就是把各个变量的数据都线性地变换到一个新的标尺上,在新标尺上,每个变量的最大值都为1。第i个变量数值归一化公式为
式中xi,old为原始数据;xi,new为变换后的新数据;xmax为原始数据中的最大值;n为数据中变量个数。该变换保证了各变量的数据都≤1。有时为了将数据规范为0~1之间的数值,即变换后数据的最小值为0,最大值为1,也常用下述公式进行预处理:
式中,xmin为原始数据中的最小值。数值归一化可以保证各变量的变化幅度处于同一水平上,从而消除了数据本身差别带来的影响。但其缺点是,若数值集合中有一个数值很大,则其余各值都会相差不大。
(2)方差归一化法
方差可以用来描述变量的变化幅度,而在处理化学数据时,有时我们更关注数据的变化幅度,因此从方差这个角度进行数据归一化就是方差归一化方法,常用下面的公式进行变换,
式中,m为变量i的均值;Vj为该变量的方差。经变换后的数据方差为1,它保证了各变量的方差一致,各变量在分类过程中影响程度相同。
数据的标准化(normalization)是将数据按比例缩放,使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。min-max标准化(Min-max normalization)
也叫离差标准化,是对原始数据的线性变换,使结果落到[0,1]区间,转换函数如下: (6-4)
其中max为样本数据的最大值,min为样本数据的最小值。这种方法有一个缺陷就是当有新数据加入时,可能导致max和min的变化,需要重新定义。
log函数转换
通过以10为底的log函数转换的方法同样可以实现归一下,具体方法如下: (6-5)
很多介绍都x*=log10(x),其实是有问题的,这个结果并非一定落到[0,1]区间上,应该还要除以log10(max),max为样本数据最大值,并且所有的数据都要大于等于1。
atan函数转换
用反正切函数也可以实现数据的归一化: (6-6)
使用这个方法需要注意的是如果想映射的区间为[0,1],则数据都应该大于等于0,小于0的数据将被映射到[-1,0]区间上。而并非所有数据标准化的结果都映射到[0,1]区间上,其中最常见的标准化方法就是Z标准化,也是SPSS中最为常用的标准化方法z-score 标准化(zero-mean normalization)
也叫标准差标准化,经过处理的数据符合标准正态分布,即均值为0,标准差为1,其转化函数为: (6-7)
其中μ为所有样本数据的均值,σ为所有样本数据的标准差。 (1)加权变换法
归一化方法是把各个变量对分类的影响都拉到同一个水平上,而加权变换则是人为地加大某个,或某些变量的影响。其做法就是在不同的变量上乘以不同的权值,权值越大影响越大。当然,权值不能随便加,一般要根据专家的意见,或经验等来选择。
(2)变量变换法
变量变换就是对原变量进行某些数学变换,常用的数学变换包括
您可能关注的文档
- 数学五年级上册《小数除以整数》PPT课件.ppt
- 数学分数指数幂课件.ppt
- 数学五上说教材-蔡玉凤.ppt
- 数学二年级下册《租船》讲课1.ppt
- 数学八年级上册一次函数导学案1.doc
- 数学实践与认识5.ppt
- 数学四年级下册四则运算整理复习课件.ppt
- 数学六年级上西师大版2.3圆的面积课件11.ppt
- 数学分析 第五章 导数4-5.ppt
- 数学建模 液滴高度问题.doc
- 2025年8月 在全市防汛工作视频会议上的讲话.docx
- 在2025年市委常委班子集中整治问题整改工作专题会议上的讲话+党课:以过硬作风护航高质量发展以实干担当书写新时代“赶考”答卷.pdf
- 国有企业2025年在“贯彻党中央决策部署和国企改革要求方面、全面从严治党责任落实方面、基层党组织建设方面、巡察整改长效机制建设四个方面”巡察整改专题民主生活会存在的原因分析.docx
- 2篇 2025年在四届区委第十三轮巡察动员部署会议上的讲话.pdf
- 在理论学习中心组巡视整改专题学习研讨会议上的讲话+在省委巡视反馈问题整改部署会上的讲话+工作领导小组会议上的讲话.pdf
- 2篇 2025年在四届区委第十三轮巡察动员部署会议上的讲话.docx
- 2025年国企理论学习中心组巡视巡察专题民主生活会会前学习研讨+(2025年四个方面)巡察整改专题民主生活会个人发言提纲.docx
- 局党组、宣传部、纪委监委关于2025年上半年意识形态工作总结及2025年下半年工作打算.pdf
- 4篇 2025年在学习贯彻《中华人民共和国监察法实施条例》研讨交流会上的发言.pdf
- 在市委理论学习中心组中央城市工作会议精神专题学习研讨会上的发言.+关于传达中央城市工作会议精神的讲话提纲.docx
文档评论(0)