- 1、本文档共17页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据的标准
Z-score方法将所有变量数据通过标准化转化为均值为0,方差为1的无量纲数值。其计算公式为:
,
其中: 平均值,标准偏差。
对于取值越高,对于可持续性贡献越低的变量,需要将计算式中的分子分母倒置,即,以符合值越大可持续性越高的原则。如:每10万人判刑人数。
例如指标A在不同年份有4个数据:1,2,3,4
按照Z-score法计算首先要计算平均值,根据上面的计算公式,计算其平均值为:10÷4=2.5;
其次计算标准偏差(方差),根据计算公式,标准偏差为:1.29
最后带入计算公式:
指标A的第一个数据经过标准化,得到(1-2.5)÷1.29 = -1.16
其他3个的数据也是通过同样的方法标准化。
其实,标准化的方法有很多种,不同的方法可以满足不同的需要,Z-score是标准化方法中比较常见的一种方法。而统计中也有很多专门的软件帮助Z-score标准化,例如SPSS for Windows 就是一个很好的软件,输入数据后就可以坐享其成了^_^
数据挖掘概念和技术读书笔记???? 选择自 HYPERLINK /user/Morgan_ma Morgan_ma 的 Blog
关键字
? data mining,kdd
出处
?
1. 时代的挑战
近十几年来,人们利用信息技术生产和搜集数据的能力大幅度提高,千千万万个数据库被用于商业管理、政府办公、科学研究和工程开发等等,这一势头仍将持续发展下去。于是,一个新的挑战被提了出来:在这被称之为信息爆炸的时代,信息过量几乎成为人人需要面对的问题。如何才能不被信息的汪洋大海所淹没,从中及时发现有用的知识,提高信息利用率呢?要想使数据真正成为一个公司的资源,只有充分利用它为公司自身的业务决策和战略发展服务才行,否则大量的数据可能成为包袱,甚至成为垃圾。需要是发明之母,因此,面对人们被数据淹没,人们却饥饿于知识的挑战,数据挖掘和知识发现(DMKD)技术应运而生,并得以蓬勃发展,越来越显示出其强大的生命力。
这里所说的知识发现,不是要求发现放之四海而皆准的真理,也不是要去发现崭新的自然科学定理和纯数学公式,更不是什么机器定理证明。实际上,所有发现的知识都是相对的,是有特定前提和约束条件,面向特定领域的,同时还要能够易于被用户理解。最好能用自然语言表达所发现的结果。
2. 历史的必然
从商业数据到商业信息的进化过程中,每一步前进都是建立在上一步的基础上的。见下表。表中我们可以看到,第四步进化是革命性的,因为从用户的角度来看,这一阶段的数据库技术已经可以快速地回答商业上的很多问题了。
从下表中还可以清晰得看到,数据挖掘的应运而生是历史必然的选择,它符合人类社会的认识事物的客观发展规律,仅从这一点上来讲,刚刚开始处于流行中的数据挖掘的前景还是非常乐观的。
进化阶段
商业问题
支持技术
产品厂家
产品特点
数据搜集(60年代)
“过去五年中我的总收入是多少?”
计算机、磁带和磁盘
IBM,CDC
提供历史性的、静态的数据信息
数据访问(80年代)
“在纽约的分部去年三月的销售额是多少?”
关系数据库(RDBMS),结构化查询语言(SQL),ODBC
Oracle、Sybase、Informix、IBM、Microsoft
在记录级提供历史性的、动态数据信息
数据仓库;决策支持(90年代)
“在纽约的分部去年三月的销售额是多少?洛杉矶据此可得出什么结论?”
联机分析处理(OLAP)、多维数据库、数据仓库
Pilot、Comshare、Arbor、Cognos、Microstrategy
在各种层次上提供回溯的、动态的数据信息
数据挖掘(正在流行)
“下个月洛杉矶的销售会怎么样?为什么?”
高级算法、多处理器计算机、海量数据库
Pilot、Lockheed、IBM、SGI、其他初创公司
提供预测性的信息
3. 数据挖掘的定义
数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。还有很多和这一术语相近似的术语,如从数据库中发现知识(KDD)、数据分析、数据融合(Data Fusion)以及决策支持等。人们把原始数据看作是形成知识的源泉,就像从矿石中采矿一样。原始数据可以是结构化的,如关系数据库中的数据,也可以是半结构化的,如文本、图形、图像数据,甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。发现了的知识可以被用于信息管理、查询优化、决策支持、过程控制等,还可以用于数据自身的维护。因此,数据挖掘是一门非常广义的交叉学科,它汇聚了不同领域的研究者,尤其是数据库、人工智能、数理统计、可视化、并行计算等方面的学者和工程技术人员。
简
您可能关注的文档
- 数学史的教价值.doc
- 数学奇才王俊.doc
- 数学分析3习题.doc
- 数学奥林匹题解E组合数学--计数和离散最值061-070.doc
- 数学在线作.doc
- 数学实验(算圆周率).doc
- 数学实验在习题1.doc
- 数学实验教_实验16(连续可微函数观察).doc
- 数学实验考题.doc
- 数学对于学素养的积极影响.doc
- 2025中国冶金地质总局所属在京单位高校毕业生招聘23人笔试参考题库附带答案详解.doc
- 2025年01月中国人民大学文学院公开招聘1人笔试历年典型考题(历年真题考点)解题思路附带答案详解.doc
- 2024黑龙江省农业投资集团有限公司权属企业市场化选聘10人笔试参考题库附带答案详解.pdf
- 2025汇明光电秋招提前批开启笔试参考题库附带答案详解.pdf
- 2024中国能建葛洲坝集团审计部公开招聘1人笔试参考题库附带答案详解.pdf
- 2024吉林省水工局集团竞聘上岗7人笔试参考题库附带答案详解.pdf
- 2024首发(河北)物流有限公司公开招聘工作人员笔试参考题库附带答案详解.pdf
- 2023国家电投海南公司所属单位社会招聘笔试参考题库附带答案详解.pdf
- 2024湖南怀化会同县供水有限责任公司招聘9人笔试参考题库附带答案详解.pdf
- 2025上海烟草机械有限责任公司招聘22人笔试参考题库附带答案详解.pdf
文档评论(0)