数据挖掘——期末复习.ppt

下载文档 降价啦

35
0
约1.21万字
约 73页
2017-05-26 发布于天津
举报
版权申诉
保障服务

数据挖掘——期末复习.ppt

1、本文档共73页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

数据挖掘——期末复习

数据挖掘——期末复习第一章、数据挖掘概论数据挖掘: 数据库中的知识挖掘(KDD) 数据挖掘——知识挖掘的核心知识挖掘的步骤了解应用领域了解相关的知识和应用的目标创建目标数据集: 选择数据数据清理和预处理: (这个可能要占全过程60％的工作量) 数据缩减和变换找到有用的特征，维数缩减/变量缩减，不变量的表示。选择数据挖掘的功能数据总结, 分类模型数据挖掘, 回归分析, 关联规则挖掘, 聚类分析等. 选择挖掘算法数据挖掘: 寻找感兴趣的模式模式评估和知识表示可视化，转换，消除冗余模式等等运用发现的知识体系结构:典型数据挖掘系统数据挖掘的主要功能概念/类描述: 特性化和区分归纳，总结和对比数据的特性。关联分析发现数据之间的关联规则，这些规则展示属性－值频繁的在给定的数据中所一起出现的条件。分类和预测通过构造模型 (或函数)用来描述和区别类或概念，用来预测类型标志未知的对象类。聚类分析将类似的数据归类到一起，形成一个新的类别进行分析。孤立点分析通常孤立点被作为“噪音”或异常被丢弃，但在欺骗检测中却可以通过对罕见事件进行孤立点分析而得到结论。趋势和演变分析描述行为随时间变化的对象的发展规律或趋势数据挖掘:多个学科的融合数据挖掘的主要问题挖掘方法在不同的数据类型中挖掘不同类型的知识, e.g., 生物数据, 流式数据, Web数据性能: 算法的有效性、可伸缩性和并行处理模式评估: 兴趣度问题背景知识的合并处理噪声何不完全数据并行, 分布式和增量挖掘算法新发现知识与已有知识的集成: 知识融合用户交互数据挖掘查询语言和特定的数据挖掘数据挖掘结果的表示和显示多个抽象层的交互知识挖掘应用和社会因素特定域的数据挖掘不可视的数据挖掘数据安全,完整和保密的保护第二章、数据仓库和OLAP技术什么是数据仓库? 数据仓库的定义很多，但却很难有一种严格的定义它是一个提供决策支持功能的数据库，它与公司的操作数据库分开维护。为统一的历史数据分析提供坚实的平台，对信息处理提供支持 “数据仓库是一个面向主题的、集成的、随时间而变化的、不容易丢失的数据集合，支持管理部门的决策过程.”—W. H. Inmon（数据仓库构造方面的领头设计师）建立数据仓库(data warehousing): 构造和使用数据仓库的过程。数据仓库与异种数据库集成传统的异种数据库集成: 在多个异种数据库上建立包装程序（wrappers）和中介程序（mediators ）查询驱动方法——当从客户端传过来一个查询时，首先使用元数据字典将查询转换成相应异种数据库上的查询；然后，将这些查询映射和发送到局部查询处理器缺点：复杂的信息过虑和集成处理，竞争资源数据仓库: 更新驱动将来自多个异种源的信息预先集成，并存储在数据仓库中，供直接查询和分析高性能 OLTP系统和OLAP系统的比较从关系表和电子表格到数据立方体数据仓库和数据仓库技术基于多维数据模型。这个模型把数据看作是数据立方体形式。多维数据模型围绕中心主题组织，该主题用事实表表示。事实是数值度量的。数据立方体允许以多维数据建模和观察。它由维和事实定义。维是关于一个组织想要记录的视角或观点。每个维都有一个表与之相关联，称为维表。事实表包括事实的名称或度量以及每个相关维表的关键字在数据仓库的研究文献中，一个n维的数据的立方体叫做基本方体。给定一个维的集合，我们可以构造一个方体的格，每个都在不同的汇总级或不同的数据子集显示数据，方体的格称为数据立方体。0维方体存放最高层的汇总，称作顶点方体；而存放最底层汇总的方体则称为基本方体。度量的分类一个数据立方体的度量是一个数值函数，该函数可以对数据立方体的每一个点求值。度量可以根据其所用的聚集函数分为三类：分布的(distributive)：将函数用于n个聚集值得到的结果和将函数用于所有数据得到的结果一样。比如：count()，sum()，min()，max()等代数的(algebraic)：函数可以由一个带M个参数的代数函数计算（M为有界整数），而每个参数值都可以有一个分布的聚集函数求得。比如：avg()，min_N()，standard_deviation() 整体的(holistic)：描述函数的子聚集所需的存储没有一个常数界。比如：median()，mode()，rank() 概念分层：location维的一个概念分层多维数据模型上的OLAP操作上卷(roll-up):汇总数据通过一个维的概念分层向上攀升或者通过维规约下钻(drill-down)：上卷的逆操作由不太详细的数据到更详细的数据，可以通过沿维的概念分层向下或引入新的维来实现切片和