数据仓库与数据挖掘课后习题答案24817.pdfVIP

数据仓库与数据挖掘课后习题答案24817.pdf

  1. 1、本文档共15页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

数据仓库与数据挖掘课后习题

答案

数据仓库与数据挖掘

第一章课后习题

一:填空题

1)数据库中存储的都是数据,而数据仓库中的

数据都是一些历史的、存档的、归纳的、计算的

数据。

2)数据仓库中的数据分为四个级别:早起细节

级、当前细节级、轻度综合级、高度综合级。

3)数据源是数据仓库系统的基础,是整个系统

的数据源泉,通常包括业务数据和历史数据。

4)元数据是“关于数据的数据”。根据元数据用

途的不同将数据仓库的元数据分为技术元数据

和业务元数据两类。

5)数据处理通常分为两大类:联机事务处理和

联机事务分析

6)Fayyad过程模型主要有数据准备,数据挖掘

和结果分析三个主要部分组成。

7)如果从整体上看数据挖掘技术,可以将其分

为统计分析类、知识发现类和其他类型的数据挖

8)

9)

10)c.单独的数据集市体系结构

d.分布式数据仓库结构

第二章课后习题

一:填空题

1)模型是对现实世界进行抽象的工具。在信息

管理中需要将现实世界的事物及其有关特征转

换为信息世界的数据才能对信息进行处理与管

理,这就需要依靠数据模型作为这种转换的桥

梁。

2)数据仓库模型设计包括概念、逻辑、物理、

元数据模型设计等内容。

3)现实世界是存在于现实之中的各种客观事

物。概念世界是现实情况在人们头脑中的反应。

逻辑世界是人们为将存在于自己头脑中的概念

模型转换到计算机中的实际的物理存储过程中

的一个计算机逻辑表示模式。计算机世界则是指

现实世界中的事物在计算机系统中的实际存储

模式。

4)数据仓库设计的概念模型与业务数据处理系

统的三级数据模型仍然具有一定的差距。表现在

数据类型的差异、数据的历史变迁性、数据概况

5)数据仓库项目需求的收集与分析需求要从历

史数据与用户需求两个方面同时着手,采用数据

驱动+用户驱动的理念。

6)所谓主题,是指在较高程度上将业务数据进

行综合,归类和分析利用的一个抽象概念,每个

主题基本对立业务的一个分析领域。

7)多维数据模型较为普遍地采用星型模型、雪

花模型两种模式。

8)设计聚集模型时,首先需要考虑用户的使用

要求,其次要考虑数据仓库的粒度模型和数据的

统计分析情况。

9)分割是数据仓库逻辑设计中要解决的另一个

重要问题,它的目的在于提高效率能为数据仓库

的物理实施提供设计依据。

10)元数据根据使用情况,主要有技术元数据和

业务元数据两类元数据。

二:简答题

1)简述概念模型设计主要完成哪些工作?

界定系统边界、确定主要的主题域、细化分

析具体内容

2)简述一个符合第三范式的关系必须具有的三

个条件。

A.每个属性的值唯一,不具有多义性

B.每个非主属性必须完全依赖于整个主键

C.每个非主属性不能依赖于其他关系中的属

性。

3)简述确定粒度级别的步骤

A.估算DASD

B.计算存储空间、确定是否划分粒度。

C.计划影响数据仓库的粒度划分

D.使用多重粒度

E.使用多种存储介质的空间量

F.选择合适的粒度

G.只采用概况数据

4)简述CWM五个功能层

对象模型层、基础层、资源层、分析层、管

理层

5)数据仓库物理模型进行优化时可以考虑的解

决方案有哪些?

A.合并表与簇文件

B.建立数据序列

C.引入冗余,反规范处理

D.表的物理分割分区

E.生成派出数据

第三章课后习题

一:填空题

1)ETL过程主要包括三个部分:数据抽取、数

据清洗与数据转换以及数据的加载。

2)ETL工作流模型包括ETL概念模型和ETL逻

辑模型两部分。

3)触发器方式是普遍采取的一种增量抽取机

制。该方式是根据抽取要求,在要被抽取的源表

上建立插入、修改和删除3个触发器。

4)一般情况下,在一个ETL流程中,抽取操作

总是最先执行,加载操作最后执行。

5)数据质量问题既有可能来自于数据源,又有

可能来自于ETL的实施过程。

6)基本的多线程并行处理技术分为3种:任务

并行处理、数据并行处理和管道并行处理。

7)ETL过程中数据质量问题分为四类:单数据

源模式层问题、单数据源实例层问题、多数据源

模式层问题、多数据源实例层。

8)ETL过程

文档评论(0)

180****8985 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档