数据挖掘与数据仓库复习资料.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘与数据仓库复习资料 2010-04-07 16:51 1数据仓库与数据挖掘的关系 大多数数据挖掘工具需要在集成的、一致的、经过清理的数据上进行挖掘。 数据挖掘过程中所需要的数据处理与分析工具完全可以在数据仓库的数据处理与数据分析工具中找到, 数据仓库中的OLAP完全可以为数据挖掘提供有关的数据操作支持 数据挖掘技术在数据仓库中的应用,正好弥补了数据仓库只能提供大量数据,而无法进行深度信息分析的缺陷。 2数据仓库与传统数据库长期共存 首先,企业内数据库与数据仓库将长期共存。 其次,数据库是数据仓库的基础。 第三,在技术实现方面,数据库与数据仓库几乎没有差别。 第四,不要脱离企业的实际,盲目地、片面地、甚至是赶时髦地去实施数据仓库。 第五,数据仓库在能够为企业带来利益的同时,在支持企业信息决策中也存在一些局限性。 总之,不要过分夸大数据仓库与传统数据库的差异,不要过分夸大数据仓库系统的作用、贬低数据库系统的作用。数据库与数据仓库将长期共存下去。 3挖掘与信息的关系 4弥补传统数据库不足 传统数据库的主要任务是进行事务处理,它所关注的是事务处理的及时性、完整性与正确性,而在数据的分析处理方面,则存在着诸多的不足,主要体现在缺乏集成性、主题不明确等几个方面。 1.集成性的缺乏 首先,业务数据库系统的条块与部门分割,导致数据分布的分散化与无序化。 其次,业务数据库缺乏统一的定义与规划,导致数据定义存在歧义。 2.主题不明确 3.分析处理效率低 5数据仓库的特点和主题 特点:数据仓库是面向主题的 数据仓库是集成的 数据仓库是稳定的 数据仓库是随时间变化的 数据仓库的数据量很大 数据仓库软硬件要求较高 6体系结构(三个层次) 数据集市结构 数据集市结构或称为主题结构的数据仓库是按照主题进行构思所形成的数据仓库,没有一个独立的数据仓库。系统的数据不存储在同一数据仓库中,每个主题有自己的物理存储区。 单一数据仓库结构 将所有的主题都集中到一个大型数据库中的体系结构。数据源中数据被按照同一标准抽取到独立的数据仓库中,用户在使用时再根据主题将数据仓库中的数据发布到数据集市中。 分布式数据仓库结构 在企业各个分公司具有相当大的独立性时,企业总部设置一个全局数据仓库,各个分公司设置各自的局部数据仓库。局部数据仓库主要存储各自的未经转换的细节数据,全局数据仓库中主要存储经过转换的综合数据 7数据仓库与数据组织 1.星形模型 由事实表和多个维度表组成。事实表中 存放大量关于企业的事实数据,对象个数通常都很大,而且非规范化程度很高。为度表中存放描述性数据,维度表是围绕事实表建立的较小的表。 优点:星形模型是非规范化的,以增加存储空间的代价,提高了多维数据的查询速度。而规范化的关系数据库设计是使数据的冗余保持在最少,并减少了当数据改变时系统必须执行的动作。 缺点:当事务问题发生变化,原来的维度不能满足要求时,需要增加新的维。由于事实表的主键由所有的围标的主键组成,这种维度的变化带来数据变化将是非常复杂非常耗时的。星形模型的数据冗余量很大。 2.雪花模型 雪花模型是对星形模型的扩展,雪花模型对星形模型的维度表进一步层次化,原来的各维度可能被扩展为小的事实表,形成一些局部的“层次”区域。它的优点是最大限度的减少数据存储量,以及把较小的维度表联合在一起来改善查询性能。 雪花模型增加了用户必须处理的表的数量,增加了某些查询的复杂性。但这种方式可以是系统进一步专业化和实用化,同时降低了系统的通用程度。 3.第三范式(特点) 把事实表和维度表的属性作为一个实体都集中在同一数据库表中,或分成多个实体用多个表来表示,表按第三范式组织数据,减少了维度表中的键和不必要的属性。 星形模型在进行多维数据分析时,在不超过预定义的维度范围内,速度是很快的,但是在超出了预定义的维度,增加维度将是很困难的事情。 第三范式对于海量数据,且需要处理大量的动态业务分析时,就显示了他的优势。 4.数据抽取、转换和装载 抽取包括1.确认数据源2.数据抽取技术 8概念模型设计 将需求分析过程中得到的用户需求抽象为信息结构,即为概念模型。是从客观世界到计算机世界的一个中间层次。最常用的表示方法是实体-关系法(E-R法),用E-R图作为它的描述工具。 9逻辑模型设计 逻辑模型设计是把概念模型设计好的E-R图转换成计算机所支持的数据模型。数据仓库在计算机中的数据模型是星形模型。这样数据仓库的逻辑模型设计主要是将用 E-R突表示的概念模型转换成星形模型。主要工作为: (1)主题域进行概念模型(E-R图)到逻辑模型(星形模型)的转换; (2)粒度层次分析; (3)关系模式定义; (4)定义记录系统。 10物理模型的设计 数据仓库的物理模型设计是为了逻辑模型设计的数据模型确定一个最适合应用要求的物理结构

文档评论(0)

xieliandimei + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档