- 1、本文档共15页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
数据仓库与数据挖掘课后习题
答案
数据仓库与数据挖掘
第一章课后习题
一:填空题
1)数据库中存储的都是数据,而数据仓库中的
数据都是一些历史的、存档的、归纳的、计算的
数据。
2)数据仓库中的数据分为四个级别:早起细节
级、当前细节级、轻度综合级、高度综合级。
3)数据源是数据仓库系统的基础,是整个系统
的数据源泉,通常包括业务数据和历史数据。
4)元数据是“关于数据的数据”。根据元数据用
途的不同将数据仓库的元数据分为技术元数据
和业务元数据两类。
5)数据处理通常分为两大类:联机事务处理和
联机事务分析
6)Fayyad过程模型主要有数据准备,数据挖掘
和结果分析三个主要部分组成。
7)如果从整体上看数据挖掘技术,可以将其分
为统计分析类、知识发现类和其他类型的数据挖
8)
9)
10)c.单独的数据集市体系结构
d.分布式数据仓库结构
第二章课后习题
一:填空题
1)模型是对现实世界进行抽象的工具。在信息
管理中需要将现实世界的事物及其有关特征转
换为信息世界的数据才能对信息进行处理与管
理,这就需要依靠数据模型作为这种转换的桥
梁。
2)数据仓库模型设计包括概念、逻辑、物理、
元数据模型设计等内容。
3)现实世界是存在于现实之中的各种客观事
物。概念世界是现实情况在人们头脑中的反应。
逻辑世界是人们为将存在于自己头脑中的概念
模型转换到计算机中的实际的物理存储过程中
的一个计算机逻辑表示模式。计算机世界则是指
现实世界中的事物在计算机系统中的实际存储
模式。
4)数据仓库设计的概念模型与业务数据处理系
统的三级数据模型仍然具有一定的差距。表现在
数据类型的差异、数据的历史变迁性、数据概况
性
5)数据仓库项目需求的收集与分析需求要从历
史数据与用户需求两个方面同时着手,采用数据
驱动+用户驱动的理念。
6)所谓主题,是指在较高程度上将业务数据进
行综合,归类和分析利用的一个抽象概念,每个
主题基本对立业务的一个分析领域。
7)多维数据模型较为普遍地采用星型模型、雪
花模型两种模式。
8)设计聚集模型时,首先需要考虑用户的使用
要求,其次要考虑数据仓库的粒度模型和数据的
统计分析情况。
9)分割是数据仓库逻辑设计中要解决的另一个
重要问题,它的目的在于提高效率能为数据仓库
的物理实施提供设计依据。
10)元数据根据使用情况,主要有技术元数据和
业务元数据两类元数据。
二:简答题
1)简述概念模型设计主要完成哪些工作?
界定系统边界、确定主要的主题域、细化分
析具体内容
2)简述一个符合第三范式的关系必须具有的三
个条件。
A.每个属性的值唯一,不具有多义性
B.每个非主属性必须完全依赖于整个主键
C.每个非主属性不能依赖于其他关系中的属
性。
3)简述确定粒度级别的步骤
A.估算DASD
B.计算存储空间、确定是否划分粒度。
C.计划影响数据仓库的粒度划分
D.使用多重粒度
E.使用多种存储介质的空间量
F.选择合适的粒度
G.只采用概况数据
4)简述CWM五个功能层
对象模型层、基础层、资源层、分析层、管
理层
5)数据仓库物理模型进行优化时可以考虑的解
决方案有哪些?
A.合并表与簇文件
B.建立数据序列
C.引入冗余,反规范处理
D.表的物理分割分区
E.生成派出数据
第三章课后习题
一:填空题
1)ETL过程主要包括三个部分:数据抽取、数
据清洗与数据转换以及数据的加载。
2)ETL工作流模型包括ETL概念模型和ETL逻
辑模型两部分。
3)触发器方式是普遍采取的一种增量抽取机
制。该方式是根据抽取要求,在要被抽取的源表
上建立插入、修改和删除3个触发器。
4)一般情况下,在一个ETL流程中,抽取操作
总是最先执行,加载操作最后执行。
5)数据质量问题既有可能来自于数据源,又有
可能来自于ETL的实施过程。
6)基本的多线程并行处理技术分为3种:任务
并行处理、数据并行处理和管道并行处理。
7)ETL过程中数据质量问题分为四类:单数据
源模式层问题、单数据源实例层问题、多数据源
模式层问题、多数据源实例层。
8)ETL过程
您可能关注的文档
- 新时期我国粮食安全战略的思考.pdf
- 新学期计划书(20篇).pdf
- 文件立卷归档制度.pdf
- 数控车床实习总结5篇.pdf
- 数学四年级下册口算天天练.pdf
- 政府采购服务类评分表模板.pdf
- 支架金属覆盖率重量法.pdf
- 搅拌站建站施工方案样本.pdf
- 探讨犬猫麻醉的风险及注意事项.pdf
- 报告厅方案_原创精品文档.pdf
- 国开景区管理作业2试题及答案.pdf
- 国开景区管理作业1-4试题及答案.pdf
- 河南开放大学本科《地域文化(本)》作业练习1-3试题及答案.pdf
- 2024年大型游乐设施操作证考试题库及答案很全.pdf
- 2024年门座式起重机司机考试题库及答案.pdf
- 2022-2023学年河北省衡水市武强中学高二(下)期末数学试卷【答案版】.docx
- 2022-2023学年河北省保定市崇德实验中学高二(下)期末数学试卷【答案版】.docx
- 江西省2017年中小学教师招聘考试高中化学试卷及答案.docx
- 2024年河北省八年级中考生物真题(解析版).docx
- 2024年南阳市社会保险中心(唐河县企业养老保险分中心)(参公)一级科员招录1人《行政职业能力测验》高频考点、难点(答案详解版).docx
文档评论(0)