数据挖掘——期末复习.ppt

  1. 1、本文档共73页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘——期末复习

数据挖掘——期末复习 第一章、数据挖掘概论 数据挖掘: 数据库中的知识挖掘(KDD) 数据挖掘——知识挖掘的核心 知识挖掘的步骤 了解应用领域 了解相关的知识和应用的目标 创建目标数据集: 选择数据 数据清理和预处理: (这个可能要占全过程60%的工作量) 数据缩减和变换 找到有用的特征,维数缩减/变量缩减,不变量的表示。 选择数据挖掘的功能 数据总结, 分类模型数据挖掘, 回归分析, 关联规则挖掘, 聚类分析等. 选择挖掘算法 数据挖掘: 寻找感兴趣的模式 模式评估和知识表示 可视化,转换,消除冗余模式等等 运用发现的知识 体系结构:典型数据挖掘系统 数据挖掘的主要功能 概念/类描述: 特性化和区分 归纳,总结和对比数据的特性。 关联分析 发现数据之间的关联规则,这些规则展示属性-值频繁的在给定的数据中所一起出现的条件。 分类和预测 通过构造模型 (或函数)用来描述和区别类或概念,用来预测类型标志未知的对象类。 聚类分析 将类似的数据归类到一起,形成一个新的类别进行分析。 孤立点分析 通常孤立点被作为“噪音”或异常被丢弃,但在欺骗检测中却可以通过对罕见事件进行孤立点分析而得到结论。 趋势和演变分析 描述行为随时间变化的对象的发展规律或趋势 数据挖掘:多个学科的融合 数据挖掘的主要问题 挖掘方法 在不同的数据类型中挖掘不同类型的知识, e.g., 生物数据, 流式数据, Web数据 性能: 算法的有效性、可伸缩性和并行处理 模式评估: 兴趣度问题 背景知识的合并 处理噪声何不完全数据 并行, 分布式和增量挖掘算法 新发现知识与已有知识的集成: 知识融合 用户交互 数据挖掘查询语言和特定的数据挖掘 数据挖掘结果的表示和显示 多个抽象层的交互知识挖掘 应用和社会因素 特定域的数据挖掘 不可视的数据挖掘 数据安全,完整和保密的保护 第二章、数据仓库和OLAP技术 什么是数据仓库? 数据仓库的定义很多,但却很难有一种严格的定义 它是一个提供决策支持功能的数据库,它与公司的操作数据库分开维护。 为统一的历史数据分析提供坚实的平台,对信息处理提供支持 “数据仓库是一个面向主题的、集成的、随时间而变化的、不容易丢失的数据集合,支持管理部门的决策过程.”—W. H. Inmon(数据仓库构造方面的领头设计师) 建立数据仓库(data warehousing): 构造和使用数据仓库的过程。 数据仓库与异种数据库集成 传统的异种数据库集成: 在多个异种数据库上建立包装程序(wrappers)和中介程序(mediators ) 查询驱动方法——当从客户端传过来一个查询时,首先使用元数据字典将查询转换成相应异种数据库上的查询;然后,将这些查询映射和发送到局部查询处理器 缺点:复杂的信息过虑和集成处理,竞争资源 数据仓库: 更新驱动 将来自多个异种源的信息预先集成,并存储在数据仓库中,供直接查询和分析 高性能 OLTP系统和OLAP系统的比较 从关系表和电子表格到数据立方体 数据仓库和数据仓库技术基于多维数据模型。这个模型把数据看作是数据立方体形式。多维数据模型围绕中心主题组织,该主题用事实表表示。事实是数值度量的。 数据立方体允许以多维数据建模和观察。它由维和事实定义。 维是关于一个组织想要记录的视角或观点。每个维都有一个表与之相关联,称为维表。 事实表包括事实的名称或度量以及每个相关维表的关键字 在数据仓库的研究文献中,一个n维的数据的立方体叫做基本方体。给定一个维的集合,我们可以构造一个方体的格,每个都在不同的汇总级或不同的数据子集显示数据,方体的格称为数据立方体。0维方体存放最高层的汇总,称作顶点方体;而存放最底层汇总的方体则称为基本方体。 度量的分类 一个数据立方体的度量是一个数值函数,该函数可以对数据立方体的每一个点求值。度量可以根据其所用的聚集函数分为三类: 分布的(distributive):将函数用于n个聚集值得到的结果和将函数用于所有数据得到的结果一样。 比如:count(),sum(),min(),max()等 代数的(algebraic):函数可以由一个带M个参数的代数函数计算(M为有界整数),而每个参数值都可以有一个分布的聚集函数求得。 比如:avg(),min_N(),standard_deviation() 整体的(holistic):描述函数的子聚集所需的存储没有一个常数界。 比如:median(),mode(),rank() 概念分层:location维的一个概念分层 多维数据模型上的OLAP操作 上卷(roll-up):汇总数据 通过一个维的概念分层向上攀升或者通过维规约 下钻(drill-down):上卷的逆操作 由不太详细的数据到更详细的数据,可以通过沿维的概念分层向下或引入新的维来实现 切片和

您可能关注的文档

文档评论(0)

youbika + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档