数据挖掘考试整理.docVIP

下载本文档

5
0
约 2页
2017-07-12 发布于天津
举报
版权申诉

数据挖掘考试整理.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据挖掘考试整理.doc

简答题 1、数据挖掘：从大量的数据中提取或“挖掘“知识。从数据中挖掘知识、知识提炼、数据/模式分析、数据考古和数据捕捞。数据仓库：是一个从多个数据源收集的信息储存库，存放在一个一致的模式下，并且通常驻留在单个站点。数据仓库通过数据清理、数据变换、书籍集成、数据装入和定期数据刷新过程来构造。 2、OLAP：数据仓库系统在数据分析和决策方面为用户或知识工人提供服务。这种系统可以用不同的格式组织和提供数据，以满足不同用户的各种需求。这种系统称作联机分析处理系统。 OLTP：联机操作数据库系统的主要任务是执行联机事务和查询处理，这种系统称作联机事务处理系统。 OLTP和OLAP之间的区别： ①用户和系统的面向性：OLTP 是面向顾客的，用于办事员、客户、和信息技术专业人员的事务和查询处理。OLAP 是面向市场的，用于知识工人（包括经理、主管、和分析人员）的数据分析。 ②数据内容：OLTP 系统管理当前数据。通常，这种数据太琐碎，难以方便地用于决策。OLAP 系统管理大量历史数据，提供汇总和聚集机制，并在不同的粒度级别上存储和管理信息。这些特点使得数据容易用于见多识广的决策。 ③数据库设计：通常，OLTP 系统采用实体-联系（ER）模型和面向应用的数据库设计。而OLAP 系统通常采用星形或雪花模型和面向主题的数据库设计。 ④视图：OLTP 系统主要关注企业或部门内部的当前数据，而不涉及历史数据或不同组织的数据。相比之下，由于组织的变化，OLAP 系统常常跨越数据库模式的多个版本。OLAP 系统也处理来自不同组织的信息，由多个数据存储集成的信息。由于数据量巨大，OLAP 数据也存放在多个存储介质上。 ⑤访问模式：OLTP 系统的访问主要由短的、原子事务组成。这种系统需要并行控制和恢复机制。然而，对OLAP 系统的访问大部分是只读操作（由于大部分数据仓库存放历史数据，而不是当前数据），尽管许多可能是复杂的查询。 OLTP 和OLAP 的其它区别包括数据库大小、操作的频繁程度、性能度量等 3、多维数据OLAP的操作？上卷操作：通过一个维的概念分层向上攀升或者通过维规约，对数据立方体进行聚集下钻操作：下钻是上卷的逆操作，它由不太详细的数据到更详细的数据。可以通过沿维的概念分层向下或者引入附加的维来实现。切片和切块操作：切片操作对给定方体的一个维进行选择，导致一个子立方体。切块操作通过对两个或者多个维执行选择，定义子立方体。转轴：转轴是一种可视化操作，它转动数据的视角，提供数据的替代表示。其他OLAP操作：钻过执行涉及多个事实表的查询；钻透操作使用关系SQL机制，钻透数据立方体的底层，到后端关系表。还可能包括列出表中的最高或最低的N项，以及计算移动平均值，增长率，利润，内部返回率，贬值，流通转换和统计功能。多维数据模型？星形模式：最常见的模式范例，其中数据仓库包括（1）一个大的包含大批数据并且不含冗余的中心表，（2）一组小的附属表，每维一个。雪花行模式：是星行模式的变种，其中某些维表是规范化的，因而把数据进一步分解到附加的表中，结果模式图形成类似于雪花的形状。事实星座型：复杂的应用可能需要多个事实表共享维表，这种模式可以看作星型模式的汇集，称作星系模式或者事实星座形模式。 4、数据仓库的设计和构造步骤？（1）数据仓库设计：商务分析框架；首先，拥有数据仓库可以提供竞争优势。其次，数据仓库可以提高企业生产力；第三，数据仓库有利于顾客联系管理；最后，通过以一致和可靠的方式长期跟踪趋势、模式和异常，数据仓库可以带来费用的降低。关于数据仓库的设计，四种不同的视角必须考虑：自顶向下视图、数据源视图、数据仓库视图和商务查询视图。（2）数据仓库的设计过程可以使用自顶向下方法、自底向上方法或者二者结合的混合方法建立。从软件工程的观点，数据仓库的设计和构造包含以下步骤： ①规划 ②需求研究 ③问题分析 ④仓库设计 ⑤数据集成和测试 ⑥部署数据库一般的，数据仓库的设计过程包含如下步骤：①选取待建模的商务处理②选取商务处理的粒度③选取用于每个事实表记录的维④选取事实表中每条记录的度量。 5、数据集成要考虑的问题？（1）模式集成和对象匹配：为了匹配现实世界的等价实体，必须合并多个数据源的元数据，这涉及实体识别问题。（2）数据冗余：一个属性可能是冗余的，属性和维命名的不一致也可能导致结果数据集中的冗余。除了检测属性间的冗余外，还应当在元组级检测重复。（3）数据值冲突的检测与处理：对于现实世界的统一实体，来自不同数据源属性值可能不同，这可能是因为表示、比例或编码不同。概念分层3,4,5的规则？p77 3-4-5 规则可以用于将数值数据划分成相对一致、“自然的”区间。一般地，该规则根据最高有效位的取值范围，递归地、逐层地