数据挖掘知识点整理.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘知识点整理.doc

第一章 数据挖掘的概念及其特点 数据挖掘 概念:在大量的数据中挖掘感兴趣的知识(规则,规律,模式,约束) 数据挖掘 (从数据中发现知识) 特点:从大量的数据中挖掘哪些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识 挖掘的不仅仅是数据(所以“数据挖掘”并非一个精确的用词) 数据挖掘的核心(KDD)是什么? 知识挖掘(KDD) 数据挖掘与知识发现 从KDD对数据挖掘的定义中可以看到当前研究领域对数据挖掘的狭义和广义认识 数据清理: (这个可能要占全过程60%的工作量) 数据集成 数据选择 数据变换 数据挖掘(选择适当的算法来找到感兴趣的模式) 模式评估 知识表示 数据挖掘的体制结构。 数据挖掘的主要方法(能够区分)常用模式 分类预测的说明:比如:按气候将国家分类,按汽油消耗定额将汽车分类 导出模型的表示: 判定树、分类规则、神经网络 可以用来预报某些未知的或丢失的数字值 聚类分析的说明:例:对WEB日志的数据进行聚类,以发现相同的用户访问模式 孤立点分析的说明 (应用)信用卡欺诈检测/移动电话欺诈检测/客户划分/医疗分析(异常) 第二章 数据仓库的概念(特点就在概念里) 数据仓库是一个(1)面向主题的、(2)集成的、(3)随时间而变化的、(4)不容易丢失的数据集合,支持管理部门的决策过程. OLAP(联机分析处理)和OLTP(联机事务处理)的区别 1、用户和系统的面向性:面向顾客(事务) VS. 面向市场(分析) 2、数据内容:当前的、详细的数据 (事务)VS. 历史的、汇总的数据(分析) 3、数据库设计:实体-联系模型(ER)和面向应用的数据库设计(事务) VS. 星型/雪花模型和面向主题的数据库设计(分析) 4、数据视图:当前的、企业内部的数据 (事务)VS. 经过演化的、集成的数据(分析) 5、访问模式:事务操作 (事务)VS. 只读查询(但很多是复杂的查询)(分析) 6、任务单位:简短的事务 VS. 复杂的查询 7、访问数据量:数十个 VS. 数百万个 8、用户数:数千个 VS. 数百个 9、数据库规模:100M-数GB VS. 100GB-数TB 10、设计优先性:高性能、高可用性 VS. 高灵活性、端点用户自治 11、度量:事务吞吐量 VS. 查询吞吐量、响应时间 多维数据模型 在多维数据模型中,数据以数据立方体(data cube)的形式存在 数据立方体允许以多维数据建模和观察。它由维和事实定义 维是关于一个组织想要记录的视角或观点。 每个维都有一个表与之相关联,称为维表。 多维数据模型围绕中心主题组织,该主题用事实表表示 事实表包括事实的名称或度量以及每个相关维表的关键字 事实指的是一些数字度量 一个n维的数据的立方体叫做基本方体。给定一个维的集合,我们可以构造一个方体的格,每个都在不同的汇总级或不同的数据子集显示数据,方体的格称为数据立方体。0维方体存放最高层的汇总,称作顶点方体;而存放最底层汇总的方体则称为基本方体。 几种常见的概念模型 星型模式(Star schema): 事实表在中心,周围围绕地连接着维表(每维一个),事实表含有大量数据,没有冗余。 雪花模式(Snowflake schema): 是星型模式的变种,其中某些维表是规范化的,因而把数据进一步分解到附加表中。结果,模式图形成类似于雪花的形状。 事实星座(Fact constellations): 多个事实表共享维表, 这种模式可以看作星型模式集,因此称为星系模式(galaxy schema),或者事实星座(fact constellation) 一种数据挖掘查询语言DMQL 一种是立方体定义,一种是维定义 立方体定义 (事实表) define cube cube_name [dimension_list]: measure_list 维定义 (维表) define dimension dimension_name as (attribute_or_subdimension_list) 概念分层的概念 一个概念分层定义一个映射序列,将低层概念映射到更一般的高层概念 多维数据模型(数据立方体)使得从不同的角度对数据进行观察成为可能,而概念分层则提供了从不同层次对数据进行观察的能力;结合这两者的特征,我们可以在多维数据模型上定义各种OLAP操作,为用户从不同角度不同层次观察数据提供了灵活性: 多维数据模型上的OLAP操作 上卷(roll-up):汇总数据 通过一个维的概念分层向上攀升或者通过维规约 当用维归约进行上卷时,一个或多个维由给定的数据立方体删除 下钻(drill-down):上卷的逆操作 由不太详细的数据到更详细的数据,可以通过沿维的概念分层向下或引入新的维来实现 (为给定数据添加更多细节

文档评论(0)

ziyouzizai + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档