- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Data Mining: Concepts and Techniques
J. Han and M. Kamber
Morgan Kaufmann
目录
第一章 引言 8
1.1 什么激发数据挖掘?为什么它是重要的? 8
1.2 什么是数据挖掘? 10
1.3 数据挖掘——在何种数据上进行? 12
1.3.1 关系数据库 13
1.3.2 数据仓库 14
1.3.3 事务数据库 16
1.3.4 高级数据库系统和高级数据库应用 16
1.4 数据挖掘功能——可以挖掘什么类型的模式? 18
1.4.1 概念/类描述:特征和区分 19
1.4.2 关联分析 19
1.4.3 分类和预测 20
1.4.4 聚类分析 20
1.4.5 局外者分析 21
1.4.6 演变分析 21
1.5 所有模式都是有趣的吗? 21
1.6 数据挖掘系统的分类 22
1.7 数据挖掘的主要问题 23
1.8 总结 25
习题 26
第二章数据仓库和数据挖掘的OLAP 技术 29
2.1 什么是数据仓库? 29
2.2.1 操作数据库系统与数据仓库的区别 30
2.1.2 但是,为什么需要一个分离的数据仓库 31
2.2 多维数据模型 32
2.2.1 由表和电子数据表到数据方 32
2.2.2 星形、雪花和事实星座:多维数据库模式 34
2.2.3 定义星形、雪花和事实星座的例子 36
2.2.3 度量:它们的分类和计算 37
2.2.5 引入概念分层 38
2.2.6 多维数据模型上的OLAP 操作 40
2.2.7 查询多维数据库的星形网查询模型 42
2.3 数据仓库的系统结构 42
2.3.1 数据仓库的设计步骤和结构 42
2.3.2 三层数据仓库结构 44
2.3.3 OLAP 服务器类型:ROLAP、MOLAP、HOLAP 的比较 45
2.4 数据仓库实现 46
2.4.1 数据方的有效计算 47
2.4.2 索引OLAP 数据 50
2.4.3 OLAP 查询的有效处理 52
2.4.4 元数据存储 53
2.5 数据方技术的进一步发展 54
2.5.1 数据方发现驱动的探查 54
2.5.2 多粒度上的复杂聚集: 多特征方 56
2.5.3 其它进展 57
2.6 由数据仓库到数据挖掘 58
2.6.1 数据仓库的使用 58
2.6.2 由联机分析处理到联机分析挖掘 59
2.7 总结 60
习题 61
第三章数据预处理 64
3.1 为什么要预处理数据? 64
3.2 数据清理 66
3.2.1 遗漏值 66
3.2.2 噪音数据 66
3.3 数据集成和变换 68
3.3.1 数据集成 68
3.3.2 数据变换 69
3.4 数据归约 70
3.4.1 数据方聚集 71
3.4.2 维归约 72
3.4.3 数据压缩 73
3.4.4 数值归约 75
3.5 离散化和概念分层产生 79
3.5.1 数值数据的离散化和概念分层产生 80
3.5.2 分类数据的概念分层产生 83
3.6 总结 84
习题 85
第四章数据挖掘原语、语言和系统结构 87
4.1 数据挖掘原语:什么定义数据挖掘任务? 87
4.1.1 任务相关的数据 89
4.1.2 要挖掘的知识的类型 89
4.1.3 背景知识:概念分层 90
4.1.4 兴趣度度量 92
4.1.5 发现模式的提供和可视化 94
4.2 一种数据挖掘查询语言 95
4.2.1 任务相关数据说明的语法 96
4.2.2 说明挖掘知识类型的语法 97
4.2.3 概念分层说明的语法 99
4.2.4 兴趣度度量说明的语法 99
4.2.5 模式提供和可视化说明的语法 100
4.2.6 汇集 —— 一个DMQL 查询的例子 100
4.2.7 其它数据挖掘语言和数据挖掘原语的标准化 101
4.3 基于数据挖掘查询语言设计图形用户界面 102
4.4 数据挖掘系统的结构 102
4.5 总结 103
第五章概念描述:特征与比较 107
5.1 什么是概念描述? 107
5.2 数据泛化和基于汇总的特征 108
5.2.1 面向属性归纳 108
5.2.2 面向属性归纳的有效实现111
5.2.3 导出泛化的表示 112
5.3 解析特征: 属性相关性分析 115
5.3.1 为什么进行属性相关性分析? 115
5.3.2 属性相关分析方法 115
5.4 挖掘类比较:区分不同的类 118
5.4.1 类比较方法和实现 118
5.4.2 类比较描述的表示 120
5.4.3 类描述: 提供特征和比较 121
5.5 在大型数据库中挖掘描述统计度量 123
5.5.1 度量中心趋势 123
5.5.2 度量数据的发散 124
5.5.3 基本统计类描述的图形
您可能关注的文档
最近下载
- 2025年吉林机关事业单位工人技术等级考试(打字员)历年参考题库含答案详解(5卷).docx VIP
- 《网络安全培训课件》讲义.ppt VIP
- 2024年包头轻工职业技术学院单招职业技能测试题库带答案(典型题).docx VIP
- MvBox5.0安装详细教程.doc VIP
- 综合自动化800a说明书wbh801ap r1调试091016.pdf VIP
- 水库灌区项目施工组织设计.docx VIP
- 处方权考试试题(含答案).docx VIP
- 2025新版七上历史全册重点知识点总结.pdf VIP
- JGJ-T23-2011回弹法检测混凝土抗压强度技术规程.doc VIP
- SolidWorks 2023实用教程 课件 第1章 SolidWorks基础知识与用户界面.pptx
文档评论(0)