数据的标准.docVIP

下载本文档

22
0
约1.14万字
约 17页
2017-06-16 发布于河南
举报
版权申诉

数据的标准.doc

1、本文档共17页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据的标准

Z-score方法将所有变量数据通过标准化转化为均值为0，方差为1的无量纲数值。其计算公式为： , 其中：平均值，标准偏差。对于取值越高，对于可持续性贡献越低的变量，需要将计算式中的分子分母倒置，即，以符合值越大可持续性越高的原则。如：每10万人判刑人数。例如指标A在不同年份有4个数据：1，2，3，4 按照Z-score法计算首先要计算平均值，根据上面的计算公式，计算其平均值为：10÷4＝2.5；其次计算标准偏差（方差），根据计算公式，标准偏差为：1.29 最后带入计算公式：指标A的第一个数据经过标准化，得到（1－2.5）÷1.29 ＝－1.16 其他3个的数据也是通过同样的方法标准化。其实，标准化的方法有很多种，不同的方法可以满足不同的需要，Z-score是标准化方法中比较常见的一种方法。而统计中也有很多专门的软件帮助Z-score标准化，例如SPSS for Windows 就是一个很好的软件，输入数据后就可以坐享其成了^_^ 数据挖掘概念和技术读书笔记???? 选择自 HYPERLINK /user/Morgan_ma Morgan_ma 的 Blog 关键字 ? data mining,kdd 出处 ? 1．时代的挑战近十几年来,人们利用信息技术生产和搜集数据的能力大幅度提高,千千万万个数据库被用于商业管理、政府办公、科学研究和工程开发等等,这一势头仍将持续发展下去。于是,一个新的挑战被提了出来:在这被称之为信息爆炸的时代,信息过量几乎成为人人需要面对的问题。如何才能不被信息的汪洋大海所淹没,从中及时发现有用的知识,提高信息利用率呢?要想使数据真正成为一个公司的资源,只有充分利用它为公司自身的业务决策和战略发展服务才行,否则大量的数据可能成为包袱,甚至成为垃圾。需要是发明之母，因此,面对人们被数据淹没,人们却饥饿于知识的挑战,数据挖掘和知识发现(DMKD)技术应运而生,并得以蓬勃发展,越来越显示出其强大的生命力。这里所说的知识发现，不是要求发现放之四海而皆准的真理，也不是要去发现崭新的自然科学定理和纯数学公式，更不是什么机器定理证明。实际上，所有发现的知识都是相对的，是有特定前提和约束条件，面向特定领域的，同时还要能够易于被用户理解。最好能用自然语言表达所发现的结果。 2．历史的必然从商业数据到商业信息的进化过程中，每一步前进都是建立在上一步的基础上的。见下表。表中我们可以看到，第四步进化是革命性的，因为从用户的角度来看，这一阶段的数据库技术已经可以快速地回答商业上的很多问题了。从下表中还可以清晰得看到，数据挖掘的应运而生是历史必然的选择，它符合人类社会的认识事物的客观发展规律，仅从这一点上来讲，刚刚开始处于流行中的数据挖掘的前景还是非常乐观的。进化阶段商业问题支持技术产品厂家产品特点数据搜集(60年代) “过去五年中我的总收入是多少？” 计算机、磁带和磁盘 IBM,CDC 提供历史性的、静态的数据信息数据访问(80年代) “在纽约的分部去年三月的销售额是多少？” 关系数据库（RDBMS），结构化查询语言（SQL），ODBC Oracle、Sybase、Informix、IBM、Microsoft 在记录级提供历史性的、动态数据信息数据仓库；决策支持(90年代) “在纽约的分部去年三月的销售额是多少？洛杉矶据此可得出什么结论？” 联机分析处理（OLAP）、多维数据库、数据仓库 Pilot、Comshare、Arbor、Cognos、Microstrategy 在各种层次上提供回溯的、动态的数据信息数据挖掘（正在流行） “下个月洛杉矶的销售会怎么样？为什么？” 高级算法、多处理器计算机、海量数据库 Pilot、Lockheed、IBM、SGI、其他初创公司提供预测性的信息 3．数据挖掘的定义数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。还有很多和这一术语相近似的术语,如从数据库中发现知识(KDD)、数据分析、数据融合(Data Fusion)以及决策支持等。人们把原始数据看作是形成知识的源泉,就像从矿石中采矿一样。原始数据可以是结构化的,如关系数据库中的数据,也可以是半结构化的,如文本、图形、图像数据,甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。发现了的知识可以被用于信息管理、查询优化、决策支持、过程控制等,还可以用于数据自身的维护。因此,数据挖掘是一门非常广义的交叉学科,它汇聚了不同领域的研究者,尤其是数据库、人工智能、数理统计、可视化、并行计算等方面的学者和工程技术人员。简