- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据仓库与数据挖掘习题
1.1什么是数据挖掘?在你的回答中,强调以下问题:(a)它是又一个骗局吗?
(b) 这是数据库、统计和机器学习技术的简单转变吗?(c) 解释数据库技术的发展如何导致数据挖掘
(d)当把数据挖掘看作知识发现过程时,描述数据挖掘所涉及的步骤。
1.2举一个例子,说明数据挖掘对企业的成功至关重要。该业务需要什么样的数据挖掘功能?它们可以通过数据查询处理或简单的统计分析来实现吗?
1.3假定你是big-university的软件工程师,任务是设计一个数据挖掘系统,分析学校课程数据库。该数据库包括如下信息:每个学生的姓名,地址和状态(例如,本科生或研究生),所修课程,以及他们累积的gpa(学分平均)。描述你要选取的结构。该结构的每个成分的作用是什么?
1.4数据仓库和数据库之间的区别是什么?它们有什么相似之处?
1.6定义以下数据挖掘功能:特征化,区分,关联,分类,预测,聚类和演变分析。使用你熟悉的现实生活中的数据库,给出每种数据挖掘的例子。
1.7区分和分类的区别是什么?表征和聚类之间有什么区别?那么分类和预测呢?对于每一对任务,它们的相似之处是什么?
1.8根据你的观察,描述一种可能的知识类型,它需要由数据挖掘方法发现,但未在本章中列出。它需要一种不同于本章列举的数据挖掘技术吗?
1.9描述与数据挖掘方法和用户交互相关的三个数据挖掘挑战。1.10描述与性能问题相关的两个数据挖掘挑战。
2.1试述对于多个异种信息源的集成,为什么许多公司宁愿使用更新驱动的方法(构造使用数据仓库),而不愿使用查询驱动的方法(使用包装程序和集成程序)。描述一些情况,其中查询驱动方法比更新驱动方法更受欢迎。
2.2简要比较以下概念,并用示例解释您的观点:(a)雪花模式、事实星座、星型网络查询模型(b)数据清理、数据转换和刷新
(c)发现驱动数据立方体、多特征方、虚拟仓库2.3假定数据仓库包含三个维time,doctor和patient,两个度量count和charge,其中charge是医生对一位病人的一次诊治的收费。(a)列举三种流行的数据仓库建模模式。
(b) 图(a)显示了上述数据仓库的一种模式。
(c)由基本方体[day,doctor,patient]开始,为列出2000年每位医生的收费总数,应当执行哪些olap操作?
(d) 要获得相同的结果,请编写一个SQL查询。假设数据存储在关系数据库中,其模式如下:费用(日、月、年、医生、医院、患者、计数、收费)
2.4假定big_university的数据仓库包含如下4个维student,course,semester和instructor,2个度量count和avg_grade。在最低的概念层(例如对于给定的学生、课程、学期和教师的组合),度量avg_grade存放学生的实际成绩。在较高的概念层,avg_grade存放给定组合的
平均分。
(a)为数据仓库画出雪花模式图;
(b) 从基本多维数据集[学生、课程、学期、讲师]开始,列出每个学生在大学CS课程的平均分数,以及应该使用哪些OLAP操作(例如从一学期到一年的汇总);(c) 如果每个维度有5层(包括所有层),例如student2 5,则假设数据仓库包含四个维度:日期、观众、位置和游戏,以及两个度量:计数和收费。其中费用是观众在指定日期观看节目所支付的费用。观众可以是学生、成年人或老年人,每种类型的观众都有不同的收费标准。
(a)画出该数据仓库的星型模式图;(b)由基本方体[date,spectator,location,game]开始,为列出2000年学生观众在gm-place的总付费,应当执行哪些olap操作?
(c) 位图索引对于数据仓库很有用。以数据立方体为例,简要讨论了使用位图索引结构的优点和存在的问题。
2.6为地区气象局设计一个数据仓库。气象局大约有1000观察点,散步在该地区的陆地、海洋,收集基本气象数据,包括每小时的气压、温度、降雨量。所有的数据都送到中心站,那里已收集了这种数据长达十年。你的设计应当有利于有效的查询和联机分析处理,有利于有效地导出多维空间的一般天气模式。2.7关于数据立方体中的度量计算:
(a) 根据用于计算数据立方体的聚合函数,列出了三种度量分类;(b) 对于具有时间、位置和乘积三个维度的数据立方体,函数方差属于哪一类?如果立方体被分成块,描述如何计算;
(c)假定函数是\最高的10个销售额\。讨论如何在数据立方体里有效的计算该度量。2.8假定需要在数据立方体中记录三种度量:min,averag
您可能关注的文档
最近下载
- 海浦蒙特HD30系列矢量控制变频器用户手册(V1.5).pdf
- 2023年国家公务员(公安机关人民警察招)考试真题(含答案).pdf VIP
- XX(集团)有限公司投资管理办法.docx VIP
- 2025年全国中学生天文知识竞赛决赛试题.docx VIP
- 我和规则做朋友.ppt VIP
- 藤茶培训资料.doc VIP
- (高清版)DB4101∕T 9.4-2021 反恐怖防范管理规范 第4部分:中小学、幼儿园.pdf VIP
- 2023预防电信网络诈骗PPT课件.pdf VIP
- 2025年国网山西省电力公司提前批校园招聘笔试备考试题及答案解析.docx VIP
- 成人高考专升本《政治》考试复习必看重点图文.docx VIP
文档评论(0)