数据挖掘浙江工商大学期末复习.docVIP

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
各章节知识点及课后习题。(知识点事课后习题的斜体表示) 第一章:概论 数据仓库定义和特征:数据仓库就是面向主题的、集成的、不可更新的(稳定性)、随时间不断变化(不同时间)的数据集合,用以支持经营管理中的决策制定过程。 第二章:数据仓库技术与开发 数据仓库的技术体系结构:后台数据预处理、数据仓库数据管理和数据仓库的前台查询服务。 数据仓库的开发流程:规划与分析阶段、设计与实施阶段、应用阶段。 总线型数据仓库结构:总线型数据仓库结构的核心思想是使用统一的维和统一的事实来构造数据仓库的总线。 1.数据仓库的概念模型是用什么来表达的,为什么实体——联系模型不适用来建立数据仓库的概念模型? 数据仓库的概念模型一般用多维数据模型。 实体联系模型不适合建立数据仓库是因为实体联系使用于事务性处理,它可以保证数据的唯一性、一致性,使操作变得简单而高效。但数据仓库是面向分析的应用,进行分析时关心的是一个个分析领域,而这不适合用实体关系建模,由于分析的各种要素分散在关心复杂的各种实体及其联系中,这使得分析难以顺利进行。 2.什么是粒度?粒度的大小与数据量、查询能力、查询效率有什么关系? 粒度是指数据仓库的数据单位中保存数据的细化或综合程度的级别,越是详细的数据,粒度级别就越小。 粒度越小,数据量越大,查询能力越高,查询效率越低 3.什么叫数据分割?怎么确定数据分割的标准? 数据分割是指把打的数据集划分为多个较小的数据集,并分散到不同的物理单元进行存储,使他们能独立的被处理。数据分割的标准一般基于两方面: 数据量:数据量的大小是决定是否要进行数据分割以及如何分割的主要因素。 分析对象性质:不同的性质的主题数据,其分割的标准可能不同。 第三章:数据仓库的管理技术 数据仓库三类数据:休眠数据、元数据、脏数据。 休眠数据:存在于数据仓库中、当前并不使用、将来也很少使用或者根本就不会使用的数据。 休眠数据进入数据库的方法: 概括表格的创建 错误估计实际上所需要的历史数据的年限 随着时间推移,需求的现实性逐渐明显 坚持让详细数据驻留在数据仓库中 处理:丢进垃圾桶、归档处理、近线处理。 元数据:关于数据的数据。 管理:建立企业级的中心知识库是实现元数据管理的基本途径和关键。 脏数据进入数据仓库的四种方法: 数据源系统中的脏数据进入仓库 不合适的集成造就脏数据进入数据仓库 数据仓库中以前输入的数据过期 用户需求的改变或添加了对数据质量有不同要求的用户。 清理脏数据:数据分析、数据检测、数据修正。 第四章:联机分析处理 OLAP(联机分析处理)定义:利用联机事务处理系统产生的大量数据为组织的决策提供信息。 FASMI:快速性(Fast):系统能在数秒内对用户的多数分析要求做出反应 可分析性(Analysis):用户无需编程就可以定义新的专门计算,将其作为分析的一部分,并以用户所希望的方式给出报告 共享性(Shared):在有安全保障的前提下支持多用户共享与并发操作 多维性(Multi-dimensional) :提供对数据分析的多维视图和分析 信息性(Information):能及时获得信息,并且管理大容量信息 OLAP的基本操作:切片、切块、旋转。 多维OLAP(MOLAP):直接采用多维数据库进行联机分析处理。 关系OLAP(ROLAP):采用关系数据库来存放多维数据库进行联机分析处理。 试解释度量值、维、多维数据集的概念。 度量值:是人们观察事务的焦点。如:销售额 维:是人们观察事务的角度。如:时间 多维数据集:所以同质的度量值及其关联的维的维成员构成的一个多维数据集。是OLAP的核心。 :SQL Server数据仓库的应用与开发 星形模式是一种多维的数据关系,它由一个事实表(Fact Table)和一组维表(Dimension Table)组成。每个维表都有一个维作为主键,所有这些维的主键组合成事实表的主键。事实表的非主键属性称为事实(Fact),它们一般都是数值或其他 可以进行计算的数据;而维大都是文字、时间等类型的数据,按这种方式组织好数据我们就可以按照不同的维(事实表主键的部分或全部)来对这些事实数据进行求 和(summary)、求平均(average)、计数(count)、百分比(percent)的聚集计算,甚至可以做20~80分析。这样就可以从不 同的角度数字来分析业务主题的情况。

文档评论(0)

ktj823 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档