- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘概论(复习大纲)
数据挖掘概论
1.什么是数据挖掘?
数据挖掘 (Data Mining DM)
从大量的数据中挖掘出令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识
数据挖掘的替换词
数据库中的知识挖掘、知识发现(KDD)
知识提炼、
数据/模式分析
数据考古
数据捕捞、信息收获等等
数据挖掘的主要功能
概念/类描述: 特性化和区分
归纳,总结和对比数据的特性。
关联分析
发现数据之间的关联规则,这些规则展示属性-值频繁的在给定的数据中所一起出现的条件。
分类和预测
通过构造模型 (或函数)用来描述和区别类或概念,用来预测类型标志未知的对象类。
聚类分析
将类似的数据归类到一起,形成一个新的类别进行分析。
孤立点分析
通常孤立点被作为“噪音”或异常被丢弃,但在欺骗检测中却可以通过对罕见事件进行孤立点分析而得到结论。
趋势和演变分析
描述行为随时间变化的对象的发展规律或趋势
数据挖掘系统与DB或DW系统的集成方式
不耦合
松散耦合
半紧密耦合
紧密耦合
概念P23
数据仓库和OLAP技术
什么是数据仓库?
数据仓库的定义很多,但却很难有一种严格的定义.
“数据仓库是一个面向主题的、集成的、随时间而变化的、不容易丢失的数据集合,支持管理部门的决策过程.”—W. H. Inmon(数据仓库构造方面的领头设计师)
数据仓库关键特征
数据仓库关键特征一——面向主题
数据仓库关键特征二——数据集成
数据仓库关键特征三——随时间而变化
数据仓库关键特征四——数据不易丢失
数据仓库与异种数据库集成
传统的异种数据库集成:
在多个异种数据库上建立包装程序和中介程序
采用查询驱动方法——当从客户端传过来一个查询时,首先使用元数据字典将查询转换成相应异种数据库上的查询;然后,将这些查询映射和发送到局部查询处理器
缺点:复杂的信息过虑和集成处理,竞争资源
数据仓库: 采用更新驱动
将来自多个异种源的信息预先集成,并存储在数据仓库中,供直接查询和分析
高性能.
从关系表和电子表格到数据立方体
数据仓库和数据仓库技术基于多维数据模型。这个模型把数据看作是数据立方体形式。多维数据模型围绕中心主题组织,该主题用事实表表示。事实是数值度量的。
数据立方体由维和事实定义。
维:是关于一个组织想要记录的视角或观点。每个维都有一个表与之相关联,称为维表。
事实表包括事实的名称或度量以及每个相关维表的关键字
?.
在最低抽象层建立的立方体是存放最底层汇总的方体叫做基本方体。
0维方体存放最高层的汇总,也就是最高层抽象的立方体称作顶点方体。
多维数据模型(数据立方体)使得从不同的角度对数据进行观察成为可能,而概念分层则提供了从不同层次对数据进行观察的能力。
度量的分类
一个数据立方体的度量是一个数值函数。度量可以根据其所用的聚集函数分为三类:
分布的(distributive):将函数用于n个聚集值得到的结果和将函数用于所有数据得到的结果一样。
比如:count(),sum(),min(),max()等
代数的(algebraic):函数可以由一个带M个参数的代数函数计算(M为有界整数),而每个参数值都可以有一个分布的聚集函数求得。
比如:avg(),min_N(),standard_deviation()
整体的(holistic):比如:median(),mode(),rank()
数据仓库的概念模型
最流行的数据仓库概念模型是多维数据模型。这种模型可以以星型模式、雪花模式、或事实星座模式的形式存在。
星型模式、雪花模式、或事实星座模式画图
星型模式(Star schema): 事实表在中心,周围围绕地连接着维表(每维一个),事实表含有大量数据,没有冗余。
雪花模式(Snowflake schema): 是星型模式的变种,其中某些维表是规范化的,因而把数据进一步分解到附加表中。结果,模式图形成类似于雪花的形状。
事实星座(Fact constellations): 多个事实表共享维表, 这种模式可以看作星型模式集,因此称为星系模式(galaxy schema),或者事实星座(fact constellation) 。
星型模式实例
雪花模式实例
事实星座模式实例
关联规则挖掘
什么是关联规则挖掘?
关联规则挖掘:
从事务数据库,关系数据库和其他信息
原创力文档


文档评论(0)