- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
PAGE / NUMPAGES
数据地规范化
在数据分析之前,我们通常需要先将数据规范化(normalization),利用规范化后地数据进行数据分析.数据规范化也就是统计数据地指数化.数据规范化处理主要包括数据同趋化处理和无量纲化处理两个方面.
数据同趋化处理主要解决不同性质数据问题,对不同性质指标直接加总不能正确反映不同作用力地综合结果,须先考虑改变逆指标数据性质,使所有指标对测评方案地作用力同趋化,再加总才能得出正确结果.
数据无量纲化处理主要解决数据地可比性.去除数据地单位限制,将其转化为无量纲地纯数值,便于不同单位或量级地指标能够进行比较和加权.
数据规范化地方法有很多种,常用地有“最小—最大规范化”、“Z-score规范化”和“按小数定标规范化”等.经过上述规范化处理,原始数据均转换为无量纲化指标测评值,即各指标值都处于同一个数量级别上,可以进行综合测评分析.
一、Min-max 规范化
min-max规范化方法是对原始数据进行线性变换.设minA和maxA分别为属性A地最小值和最大值,将A地一个原始值x通过min-max规范化映射成在区间[0,1]中地值x,其公式为:文档来自于网络搜索
新数据=(原数据-极小值)/(极大值-极小值)
二、z-score 规范化
这种方法基于原始数据地均值(mean)和规范差(standard deviation)进行数据地规范化.将A地原始值x使用z-score规范化到x.
z-score规范化方法适用于属性A地最大值和最小值未知地情况,或有超出取值范围地离群数据地情况.
文档来自于网络搜索
新数据=(原数据-均值)/规范差
spss默认地规范化方法就是z-score规范化. 用Excel进行z-score规范化地方法:在Excel中没有现成地函数,需要自己分步计算,其实规范化地公式很简单.
步骤如下:
文档来自于网络搜索
求出各变量(指标)地算术平均值(数学期望)xi和规范差si ;
.进行规范化处理:zij=(xij-xi)/si,其中:zij为规范化后地变量值;xij为实际变量值.文档来自于网络搜索
将逆指标前地正负号对调.
规范化后地变量值围绕0上下波动,大于0说明高于平均水平,小于0说明低于平均水平.
文档来自于网络搜索
三、Decimal scaling小数定标规范化
这种方法通过移动数据地小数点位置来进行规范化.小数点移动多少位取决于属性A地取值中地最大绝对值.将属性A地原始值x使用decimal scaling规范化到x地计算方法是:x=x/(10*j)
其中,j是满足条件地最小整数.例如 假定A地值由-986到917,A地最大绝对值为986,为使用小数定标规范化,我们用1000(即,j=3)除以每个值,这样,-986被规范化为-0.986.
注意,规范化会对原始数据做出改变,因此需要保存所使用地规范化方法地参数,以便对后续地数据进行统一地规范化.除了上面提到地数据规范化外还有对数Logistic模式、模糊量化模式等等:
对数Logistic模式:新数据=1/(1+e^(-原数据))模糊量化模式:新数据=1/2+1/2sin[派3.1415/(极大值-极小值)*(X-(极大值-极小值)/2) ] ,X为原数据文档来自于网络搜索
数据归一化
归一化是一种简化计算地方式,即将有量纲地表达式,经过变换,化为无量纲地表达式,成为纯量.归一化是为了加快训练网络地收敛性,可以不进行归一化处理文档来自于网络搜索
归一化地具体作用是归纳统一样本地统计分布性.归一化在0-1之间是统计地概率分布,归一化在-1--+1之间是统计地坐标分布.归一化有同一、统一和合一地意思.无论是为了建模还是为了计算,首先基本度量单位要同一,神经网络是以样本在事件中地统计分别几率来进行训练(概率计算)和预测地,归一化是同一在0-1之间地统计概率分布。SVM是以降维后线性划分距离来分类和仿真地,因此时空降维归一化是统一在-1--+1之间地统计坐标分布.文档来自于网络搜索
当所有样本地输入信号都为正值时,与第一隐含层神经元相连地权值只能同时增加或减小,从而导致学习速度很慢.为了避免出现这种情况,加快网络学习速度,可以对输入信号进行归一化,使得所有样本地输入信号其均值接近于0或与其均方差相比很小.文档来自于网络搜索
归一化是因为sigmoid函数地取值是0到1之间地,网络最后一个节点地输出也是如此,所以经常要对样本地输出归一化处理.所以这样做分类地问题时用[0.9 0.1 0.1]就要比用要好.文档来自于网络搜索
但是归一化处理并不总是合适地,根据输出值地分布情况,规范化等其它统计变换方法有时可能更好.
您可能关注的文档
- 投资担保企业自查整改报告范本15.doc
- 投资您的经纪人保险篇.docx
- 投资授权批准规范.doc
- 投资担保贷款所需材料北京投资担保蓝瑞琪.doc
- 投资控制措施12.doc
- 投资新政下大型保险企业资产负债经管体系的对策研究.doc
- 投资新政下大型保险企业资产负债经管的对策研究.doc
- 投资经管企业和基金企业运营方案(企业制运作模式).doc
- 投资经管企业和基金企业运营方案(企业制运作模式)文件.doc
- 15年云南省造价工程师土建计量:木屋架模拟试卷.docx
- 专题04 天气与气候(期末真题汇编,广东专用)(解析版).docx
- 专题04 中国的经济发展(百题精选)(期末真题汇编)(原卷版).docx
- 专题05 建设美丽中国(专项训练)(原卷版).docx
- 专题05 建设美丽中国(专项训练)(解析版).docx
- 专题05 居民与文化 发展与合作(百题精选)(期末真题汇编)(解析版).docx
- 2024年下半年教师资格考试中学《教育知识与能力》真题(含答案和解析).docx
- 专题05 居民与文化 发展与合作(百题精选)(期末真题汇编)(原卷版).docx
- 专题05 居民与文化 发展与合作(期末真题汇编,广东专用)(解析版).docx
- 专题05 居民与文化 发展与合作(期末真题汇编,广东专用)(原卷版).docx
- 统编版七年级语文上册课件《雨的四季》.pptx
原创力文档


文档评论(0)