- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘考试整理.doc
简答题
1、数据挖掘:从大量的数据中提取或“挖掘“知识。从数据中挖掘知识、知识提炼、数据/模式分析、数据考古和数据捕捞。
数据仓库:是一个从多个数据源收集的信息储存库,存放在一个一致的模式下,并且通常驻留在单个站点。数据仓库通过数据清理、数据变换、书籍集成、数据装入和定期数据刷新过程来构造。
2、OLAP:数据仓库系统在数据分析和决策方面为用户或知识工人提供服务。这种系统可以用不同的格式组织和提供数据,以满足不同用户的各种需求。这种系统称作联机分析处理系统。
OLTP:联机操作数据库系统的主要任务是执行联机事务和查询处理,这种系统称作联机事务处理系统。
OLTP和OLAP之间的区别:
①用户和系统的面向性:OLTP 是面向顾客的,用于办事员、客户、和信息技术专业人员的事务和查询处理。OLAP 是面向市场的,用于知识工人(包括经理、主管、和分析人员)的数据分析。
②数据内容:OLTP 系统管理当前数据。通常,这种数据太琐碎,难以方便地用于决策。OLAP 系统管理大量历史数据,提供汇总和聚集机制,并在不同的粒度级别上存储和管理信息。这些特点使得数据容易用于见多识广的决策。
③数据库设计:通常,OLTP 系统采用实体-联系(ER)模型和面向应用的数据库设计。而OLAP 系统通常采用星形或雪花模型和面向主题的数据库设计。
④视图:OLTP 系统主要关注企业或部门内部的当前数据,而不涉及历史数据或不同组织的数据。相比之下,由于组织的变化,OLAP 系统常常跨越数据库模式的多个版本。OLAP 系统也处理来自不同组织的信息,由多个数据存储集成的信息。由于数据量巨大,OLAP 数据也存放在多个存储介质上。
⑤访问模式:OLTP 系统的访问主要由短的、原子事务组成。这种系统需要并行控制和恢复机制。然而,对OLAP 系统的访问大部分是只读操作(由于大部分数据仓库存放历史数据,而不是当前数据),尽管许多可能是复杂的查询。
OLTP 和OLAP 的其它区别包括数据库大小、操作的频繁程度、性能度量等
3、多维数据OLAP的操作?
上卷操作:通过一个维的概念分层向上攀升或者通过维规约,对数据立方体进行 聚集
下钻操作:下钻是上卷的逆操作,它由不太详细的数据到更详细的数据。可以通过沿维的概念分层向下或者引入附加的维来实现。
切片和切块操作:切片操作对给定方体的一个维进行选择,导致一个子立方体。切块操作通过对两个或者多个维执行选择,定义子立方体。
转轴:转轴是一种可视化操作,它转动数据的视角,提供数据的替代表示。
其他OLAP操作:钻过执行涉及多个事实表的查询;钻透操作使用关系SQL机制,钻透数据立方体的底层,到后端关系表。还可能包括列出表中的最高或最低的N项,以及计算移动平均值,增长率,利润,内部返回率,贬值,流通转换和统计功能。
多维数据模型?
星形模式:最常见的模式范例,其中数据仓库包括(1)一个大的包含大批数据并且不含冗余的中心表,(2)一组小的附属表,每维一个。
雪花行模式:是星行模式的变种,其中某些维表是规范化的,因而把数据进一步分解到附加的表中,结果模式图形成类似于雪花的形状。
事实星座型:复杂的应用可能需要多个事实表共享维表,这种模式可以看作星型模式的汇集,称作星系模式或者事实星座形模式。
4、数据仓库的设计和构造步骤?
(1)数据仓库设计:商务分析框架;首先,拥有数据仓库可以提供竞争优势。其次,数据仓库可以提高企业生产力;第三,数据仓库有利于顾客联系管理;最后,通过以一致和可靠的方式长期跟踪趋势、模式和异常,数据仓库可以带来费用的降低。
关于数据仓库的设计,四种不同的视角必须考虑:自顶向下视图、数据源视图、数据仓库视图和商务查询视图。
(2)数据仓库的设计过程
可以使用自顶向下方法、自底向上方法或者二者结合的混合方法建立。从软件工程的观点,数据仓库的设计和构造包含以下步骤:
①规划 ②需求研究 ③问题分析 ④仓库设计 ⑤数据集成和测试 ⑥部署数据库
一般的,数据仓库的设计过程包含如下步骤:①选取待建模的商务处理②选取商务处理的粒度③选取用于每个事实表记录的维④选取事实表中每条记录的度量。
5、数据集成要考虑的问题?
(1)模式集成和对象匹配:为了匹配现实世界的等价实体,必须合并多个数据源的元数据,这涉及实体识别问题。
(2)数据冗余:一个属性可能是冗余的,属性和维命名的不一致也可能导致结果数据集中的冗余。除了检测属性间的冗余外,还应当在元组级检测重复。
(3)数据值冲突的检测与处理:对于现实世界的统一实体,来自不同数据源属性值可能不同,这可能是因为表示、比例或编码不同。
概念分层3,4,5的规则?p77
3-4-5 规则可以用于将数值数据划分成相对一致、“自然的”区间。一般地,该规则根据最高有效位的取值范围,递归地、逐层地
文档评论(0)