数据仓库和数据挖掘试题(11年)答案--南京理工研究生.docVIP

数据仓库和数据挖掘试题(11年)答案--南京理工研究生.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
... ... 数据仓库与数据挖掘 I. 选择题,为每个问题选择最合适的答案 (10 × 2% =20%) 数据仓库上的业务处理称作_ B_。 A. 联机事务处理 B. 联机分析处理 C. 联机输入处理 D. 联机查询处理 在自然演化体系结构中,关于导致数据缺乏可信性的原因的说法哪个不正确? D A. 数据无时基 B. 抽取程序的算法有差异 C. 抽取的层次不同 D. 缺乏集成性 下面哪项关于 OLTP 与 OLAP 访问特点的说法是不正确的。 A A. OLTP 和 OLAP 对于响应时间的要求都高 B. OLTP 访问频率高, OLAP 访问频率低 C. OLAP 访问大量的历史,执行大量统计操作 D. OLTP 数据处理具有并发性 下面关于数据仓库中数据的说法错误的是? A. 数据越详细,粒度越小,层次级别就越高。 B. 在估计直接存储设备数时,如数据超过 1000 万行必须强制采取双重粒度级。 C. 数据仓库大部分分析是针对被压缩的、存取效率高的轻度级数据进行的。 D. 数据分割便于数据的重构、重组和恢复,以提高创建索引和顺序扫描的效率。 下面关于数据仓库的数据存储方式的说法哪个是不正确的? F E. 虚拟存储方式中,数据仓库的数据仍然在源数据中。 F. 星型模式下的维表规范化的,而雪花模式下的不需要规范化 G. 在查询效率方面,星型模式效率更高 H. 在事实星座模式中有多个事实表,且它们共享相同的维表 下面关于星型模型的说法哪个是不正确的? I. 有一个包含大量数据的事实表 J. 有一组小的附属表,称为维表,每维一个。 K. 事实表的每个字段都是事实度量字段 L. 事实中每条元组都含有指向各个维表的外键和一些相应的度量数据。 下面关于数据仓库的数据追加的说法哪个是不正确的? C A. 时标法需要为记录数据增加一个时间标志。 B. 前后映像文件方法需要扫描整个数据库,占用较多资源,对性能有较大影响 C. DELTA 不需要扫描整个数据库,效率较高,应用普遍 D. 日志文件法也不需要扫描整个数据库,是固有机制。 假设收入属性的最小与最大分别是 10000 和 90000,现在想把当前值 30000 映射到区间 [0,1], 若采用最大-最小数据 规范方法,计算结果是多少? B A. 0.25 B. 0.375 C. 0.125 D. 0.5 下面关于维的概念哪个是不正确的? C A. 维是人们观察数据的特定角度。 B. 维的层次性是由观察数据细致程度不同造成的。 C. “某年某月某日 ”是时间维的层次。 D. “月、季、年 ”是时间维的层次。 数据仓库开发应用周期可分为三个阶段,下列哪项不是其中某个阶段? C? B A. 规划分析阶段 B. 体系结构设计阶段 C. 设计实施阶段 D. 使用维护阶段 II. 简答题 (4× 5% =20%) 在现实世界的数据中,元组在某些属性上缺少值是常有的,描述处理该问题的方法?(至少给出 5 种不同的方法) 空缺的数据会影响数据挖掘的质量,所以应该处理忽略该元组 人工填写空缺值 使用一个全局常量填空 使用属性的平均值填充空缺值 使用与给定元组属同一类的所有样本的平均值 使用最可能的值填充空缺值 简述数据仓库的四个基本特征? 面向主题,集成的,非易失的,随时间改变的 简述轮转综合数据存储的过程? 简单逐日堆积数据的一种变种。 数据用与前面相同的处理方法从操作型环境输入到数据仓库环境中,只是在轮转综合文件中的数据才被输入到不同的 结构形式中。 简述数据库数据与数据仓库数据的异同 ? II. 设计题 (5× 12% =60%) 1、 假定大学的数据仓库包含 4 个维{student 学生、 course 课程、 semester 学期、 instructor 教师} ,2 个度量 count 和 avg_grade。在最低的概念层(例如对于给定的学生、课程、学期和教师组合),度量 avg_grade 存放学生的实际成 绩。在较高概念层, avg_grade 存放给定组合的平均成绩。 a)为数据仓库画出雪花模式图 8% b)由基本立方体 { 学生、课程、学期、教师 } 开始,列出大学每个学生的 “计算机导论 ”课程的平均成绩,应当使用哪 些 OLAP 操作(如由学期上卷到年)? 4% 上卷到年,切块(学期、课程)、切片 2、 假定数据仓库包含 4 个维 date 时间, spectator 观众, location 地区和 game 节目,2 个度量 count 和 charge。其中,charge 是观众在给定的日期观看节目的付费。观众可以是学生、成年人或老人,每类观众有不同的收费标准。 a)画出该数据仓库的星形模式图 8% b)由基本立方体 [date,spe

文档评论(0)

5566www + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:6122115144000002

1亿VIP精品文档

相关文档