- 1、本文档共74页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据解析思维训练(报告内容)
数据分析的新思维 ——数据挖掘中的数据准备 朱建平 厦门大学经济学院计划统计系 xmjpzhu@ 报告内容及目的 让大家了解数据挖掘的概念,认识海量数据分析时所遇到的问题,在此基础上,介绍原始大型数据库的基本表述和特征,了解数据准备的不同技术,比较去除丢失值的不同方法,构造时间相关数据的统一表述方法,实现一些数据预处理技术。其目的是让大家从中领悟现代统计方法的基本思想。 参考文献 Cios, K. J., Pedrycz, W. and Swiniarski, R. W. (1998), Data Mining Methods for Knowledge Discovery, U.S.A Friedman, J. H., Data Mining and Statistics: What’s The Connection? Technical Report, Stanford University Glymour, C., etc. Statistical Themes and Lessons for Data Mining, Data Mining and Knowledge Discovery 1, 11-28 (1997) Han, J . W. and Kamber, M. Data Mining: Concepts and Techniques ,Higher Education Press, (2001) Theresa, B., Frederick, E. P. and Gurdial, A., Information-Theoretic Measures of Uncertainty for Rough Sets and Rough Relational Databases, Journal of Information Sciences 109(1998), pp185-195 Nelson , D. E., High Range Resolution Radar Target Classification: A Rough Set Approach,Paper of PhD 张尧庭,谢邦昌,朱世武,数据采掘入门及应用——从统计技术看数据采掘,中国统计出版社,北京,(2001.6) 史忠植著,知识发现,清华大学出版社,北京,(2002.1) 数据挖掘讨论组,数据挖掘的研究历史和现状, / 闪四清等译(Mehmed Kantardzic),数据挖掘——概念、模型、方法和算法,清华大学出版社,(2003.8) 张银奎等译(Hand, D),数据挖掘原理,机械工业出版社,(2003.4) 范明等译(Hastie, J ),统计学习基础——数据挖掘、推理与预测,电子工业出版社,(2004.1) 朱建平,数据挖掘中的统计方法及实践,中国统计出版社(2006.10) 数据挖掘中的数据准备 一、数据挖掘的定义 二、数据挖掘与知识发现 三、海量数据分析中遇到的问题 四、数据准备 1、数据选择 2、数据预处理 3、数据变换 What are these numbers trying to Tell me??? Matrix Codes 99:8179,7954, 舅舅:不要吃酒,吃酒误事, 76269,8406,9405, 吃了二两酒,不是动怒,就是动武, 7918934,1.91817。 吃酒要被酒杀死,一点酒也不要吃。 What Are These Numbers Trying to Tell Us? 7 ÷2 2≦x≦3 40 ÷ 6 二四六八 0000 1 × 1 = 1 10002 =100×100×100 7/8 一、数据挖掘的技术定义与商业定义 什么是数据挖掘(Data Mining)? 关于定义取决于定义者的观点和背景,各人的说法不一. Friedman, J. H.在技术报告Data Mining and Statistics: Whats The Connection? 中总结出了多家关于数据挖掘的定义(也有对知识发现而言的): Fayyad提出数据挖掘是一个确定数据中有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程. Zekulin的说法是数据挖掘是一个从大型数据库中提取以前未知的、可理解的、可执行的信息,并用它来进行关键的商业决策的过程. Ferruzza给出数据挖掘是用在知识发现过程,来辩识存在于数据中的未知关系和模式的一些方法. Jonn提
您可能关注的文档
- 心理及教育研究方法.ppt
- 心理减压及调适-.ppt
- 心理咨询及沟通技巧.ppt
- 很好的柴油机共轨技术知识.ppt
- 心态礼仪着装礼仪商务礼仪系列培养训练.ppt
- 心理健康及压力管理.ppt
- 心理咨询师二级多选学习题-人格心理学、异常心理学.ppt
- 心理咨询原理及技术(下).ppt
- 心理咨询师咨询技能培养训练——同理心技术(共情).ppt
- 心理咨询师考试考前串讲变态心理学及心理健康学考前串讲.ppt
- 4.1 陆地水体及其关系 课件高二上学期地理中图版(2019)选择性必修一.pptx
- 混凝土结构与砌体结构设计习题集 .pdf
- 统编版语文四年级下册 22.古诗三首 课件(共50张PPT).pptx
- 青海2024行测笔试真题及答案 .pdf
- 2.1 充分发挥市场在资源配置中的决定性作用 课件-高中政治统编版必修二经济与社会.pptx
- 27.巨人的花园 课件(共58张PPT).pptx
- 统编版语文一年级下册5 树和喜鹊 第1课时 课件(共37张PPT).pptx
- 2.1 充分发挥市场在资源配置中的决定性作用 课件政治一轮复习统编版必修二经济与社会.pptx
- 贵港市平南县2024届小升初考试语文试卷含答案 .pdf
- 小学期末考试质量分析 .pdf
最近下载
- 2025年高考地理二轮复习非选择题强化训练(课件).pptx VIP
- (二模)2025年广州市普通高中毕业班综合测试(二)数学试卷(含答案详解).pdf
- 14J938 抗爆、泄爆图集标准.docx VIP
- 降低CRRT治疗非计划下机率.pptx VIP
- 《中国心力衰竭诊断和治疗指南2024》解读(下).pptx
- 《预检分诊》课件.pptx VIP
- 2024年河南省政务服务办事员职业技能竞赛考试题库-下(判断、简答题汇总).docx
- 2025年部编版语文六年级毕业复习知识点.pdf VIP
- 2025年政务服务办事员技能大赛理论考试题库600题(含答案).docx
- 14J938抗爆泄爆图集标准.docx VIP
文档评论(0)