- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
《数据仓库与数据挖掘》试题与答案整理
2013级智能系 高飙
1.名词解释5x4
(1)主题
主题(Subject):宏观分析领域所涉及的分析对象。是在较高层次上将企业信息系统中的数据进行综合、归类和分析利用的一个抽象概念,每一个主题基本对应一个宏观的分析领域。
面向主题的数据组织方式:在较高的层次上对分析对象的数据的一个完整、一致的描述。
(2)事实(P联机分析)
事实是数值度量的; 存储一个多维数据,表达期望分析的主题(目的、感兴趣的事情、事件或者指标等);具有一定的粒度,粒度的大小与维层次相关;
一个事实中通常包含一个或者多个度量
一个事实的两个组件:数字型指标 、聚集函数
(3)数据归约(P数据预处理)
在可能获得相同或相似结果的前提下,对数据的容量进行有效的缩减
数据归约的方法:
1数据立方体聚集:聚集操作作用于立方体中的数据
2减少数据维度(维归约):可以检测并删除不相关、弱相关或者冗余的属性或维
3数据压缩:使用编码机制压缩数据集
4数值压缩:用替代的、较小的数据表示替换或估计数据
5数据离散化以及概念层次的建立:属性的原始值用区间值或较高层的概念予以替换
(4)兴趣度(P数据挖掘)
一个数据挖掘系统的挖掘结果可能会产生成千上万个模式,但是并不是所有的模式都有意义。兴趣度度量用于将不感兴趣的模式从知识中分开。他们可以用于指导挖掘过程,或在挖掘之后,评估发现的模式。不同类型的数据需要不同的兴趣度量。
兴趣度的度量:一个模式是否感兴趣,取决于它是否容易被用户所理解,是否有效可信,是否潜在有用,是否新颖等
兴趣度的度量:
客观的度量: 从模式的角度出发,基于模式结构的某些统计的结果,如:支持度(support)、置信度(confidence)等。
主观的度量: 从用户的角度出发,对模式的信任程度,如:新颖性、可操作性等。
(5)数据分区(片)(P数据仓库设计)
把逻辑上统一的数据分割成较小的、可以独立管理的物理单元(分片)进行存储。
可按时间、按地区、按业务类型进行数据分片
(6)数据挖掘
数据挖掘是识别数据中有效的、新颖的、潜在有用的和最终可被理解的模式(Pattern)的非平凡过程。
(7)关联分析
是数据挖掘的分析方法之一,发现数据库中数据间的相互关联。关联分析发现关联规则,这些规则展示属性-值频繁地在给定数据集中也一起出现的条件。
(7‘)关联规则
形如X=Y,即“A1?…?Am=B1?…?Bn”的规则,其中Ai,Bj是属性-值对。关联规则X=Y解释为“满足X中条件的数据库元组多半也满足Y中的条件”。
发现海量数据中项集之间有趣的关联;
在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的相关性或因果结构
(8)维度(P8)
数据仓库中的每一维对应于模式中的一个或一组属性。
或者(P联机分析):对数据进行分类的一种结构,以用于从特定的角度观察数据。(例如:时间、地区、产品)
(9)度量(指标)
数据的实际意义,一般是一个数值度量指标
2.简答10x4
(1)描述ROLAP、MOLAP、HOLAP的特点(P46+P联机分析)
MOLAP:
1数据存储容量较ROLAP少,往往利用RDB存储细节数据,MDB存储综合数据
2元数据以内在方式处理,元数据描述了层次关系、时间序列信息、报表项、安全存取控制、数据源以及预综合等等。
3利用多维查询语言直接访问MDB(不借助附加程序)
ROLAP:
1以关系数据库系统方法进行数据存储和管理;安全控制和存取控制基于表; 封锁基于表、页面或行;
2多维概念下的安全及存取控制,RDBMS不支持,需由OLAP Server实现
3数据存储容量大(因为RDB技术成熟) 但为了提高性能,须建中间表(预综合),数据冗余大
4元数据作为应用的一部分,由ROLAP Server管理
5用户的分析(查询)请求,需SQL和附加的应用程序共同完成,可以直接在细节数据上提供OLAP 的功能
(2)数据粒度的概念及它在DW(数据仓库)建模中的作用
粒度:数据的综合程度。例如:细节 — 轻度综合 — 高度综合。数据越详细,粒度越小,层次级别就越低;数据综合度越高,粒度越大,层次级别就越高。
作用:合理的粒度划分是提高数据仓库性能的途径之一。粒度影响着数据仓库中数据量的大小,同时影响数据仓库所能回答的查询类型。粒度大小需要数据仓库在设计时在数据量大小和查询的详细程度之间做出权衡。
一张表的数据量很大时,就需要两个级别的粒度。粒度的划分,主要考虑行数。因为按行组织索引,索引依赖于行数,索引大小直接影响I/O次数。
(3)最大频繁项集与闭合项集的区别与联系(P关联规则挖掘)
最大频繁项集:自身是频繁项集,任何直接后继超集都不是频繁项集
闭合项集:自
文档评论(0)