网站大量收购独家精品文档,联系QQ:2885784924

数据解析思维训练(报告内容).ppt

  1. 1、本文档共74页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据解析思维训练(报告内容)

数据分析的新思维 ——数据挖掘中的数据准备 朱建平 厦门大学经济学院计划统计系 xmjpzhu@ 报告内容及目的 让大家了解数据挖掘的概念,认识海量数据分析时所遇到的问题,在此基础上,介绍原始大型数据库的基本表述和特征,了解数据准备的不同技术,比较去除丢失值的不同方法,构造时间相关数据的统一表述方法,实现一些数据预处理技术。其目的是让大家从中领悟现代统计方法的基本思想。 参考文献 Cios, K. J., Pedrycz, W. and Swiniarski, R. W. (1998), Data Mining Methods for Knowledge Discovery, U.S.A Friedman, J. H., Data Mining and Statistics: What’s The Connection? Technical Report, Stanford University Glymour, C., etc. Statistical Themes and Lessons for Data Mining, Data Mining and Knowledge Discovery 1, 11-28 (1997) Han, J . W. and Kamber, M. Data Mining: Concepts and Techniques ,Higher Education Press, (2001) Theresa, B., Frederick, E. P. and Gurdial, A., Information-Theoretic Measures of Uncertainty for Rough Sets and Rough Relational Databases, Journal of Information Sciences 109(1998), pp185-195 Nelson , D. E., High Range Resolution Radar Target Classification: A Rough Set Approach,Paper of PhD 张尧庭,谢邦昌,朱世武,数据采掘入门及应用——从统计技术看数据采掘,中国统计出版社,北京,(2001.6) 史忠植著,知识发现,清华大学出版社,北京,(2002.1) 数据挖掘讨论组,数据挖掘的研究历史和现状, / 闪四清等译(Mehmed Kantardzic),数据挖掘——概念、模型、方法和算法,清华大学出版社,(2003.8) 张银奎等译(Hand, D),数据挖掘原理,机械工业出版社,(2003.4) 范明等译(Hastie, J ),统计学习基础——数据挖掘、推理与预测,电子工业出版社,(2004.1) 朱建平,数据挖掘中的统计方法及实践,中国统计出版社(2006.10) 数据挖掘中的数据准备 一、数据挖掘的定义 二、数据挖掘与知识发现 三、海量数据分析中遇到的问题 四、数据准备 1、数据选择 2、数据预处理 3、数据变换 What are these numbers trying to Tell me??? Matrix Codes 99:8179,7954, 舅舅:不要吃酒,吃酒误事, 76269,8406,9405, 吃了二两酒,不是动怒,就是动武, 7918934,1.91817。 吃酒要被酒杀死,一点酒也不要吃。 What Are These Numbers Trying to Tell Us? 7 ÷2 2≦x≦3 40 ÷ 6 二四六八 0000 1 × 1 = 1 10002 =100×100×100 7/8 一、数据挖掘的技术定义与商业定义 什么是数据挖掘(Data Mining)? 关于定义取决于定义者的观点和背景,各人的说法不一. Friedman, J. H.在技术报告Data Mining and Statistics: Whats The Connection? 中总结出了多家关于数据挖掘的定义(也有对知识发现而言的): Fayyad提出数据挖掘是一个确定数据中有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程. Zekulin的说法是数据挖掘是一个从大型数据库中提取以前未知的、可理解的、可执行的信息,并用它来进行关键的商业决策的过程. Ferruzza给出数据挖掘是用在知识发现过程,来辩识存在于数据中的未知关系和模式的一些方法. Jonn提

文档评论(0)

qiwqpu54 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档