数据仓库与挖掘复习资料.doc

  1. 1、本文档共14页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
一、第一章 元数据是描述数据仓库内数据的结构和建立方法的数据,它为访问数据仓库提供了一个信息目录,根据元数据用途的不同可将数据仓库的元数据分为技术元数据和业务元数据两类。 数据处理通常分成两大类:联机事务处理和联机分析处理。 多维分析是指对以“维”形式组织起来的数据(多维数据集)采取切片、切块、钻取和旋转等各种分析动作,以求剖析数据,使用户能从不同角度、不同侧面观察数据仓库中的数据,从而深入理解多维数据集中的信息。 5.ROLAP是基于关系数据库的OLAP实现,而MOLAP是基于多维数据结构组织的OLAP实现。 12、简述数据仓库4种体系结构的异同点及其适用性。 (1)两层架构。 (2)独立型的数据集市。采用这种体系结构的优点是其方便性,可快速启动,这个数据仓库架构可通过一系列的小项目来实现。 (3)依赖型数据集市和操作型数据存储。优势是它们可以处理各个用户群的需求,甚至是探索性数据仓库的需求。 (4)逻辑型数据集市和实时数据仓库。是建立数据仓库的一种较佳方法,特别是在硬件性能不断提高,成本不断下降的条件下。 14、请列出3种数据仓库产品,并说明其优缺点。 答:1、IBM公司提供了一套基于可视化数据仓库的商业智能BI解决方案。 2、Oracle数据仓库解决方案主要包括Oracle Express和Oracle Discover两个部分。 3、Microsoft 将OLAP功能集成到SQL Server数据库中,其解决方案包括BI平台、BI终端工具、BI门户和BI应用四个部分。 二、什么是数据挖掘?(p4) 数据挖掘就是从从大量数据数据中提取或“挖掘”知识,又被称为数据库中的知识发现。 三、数据仓库与传统的数据库有何区别? (1)数据库是面向事务的设计,数据仓库是面向主题设计的。 (2)数据库一般存储在线交易数据,数据仓库存储的一般是历史数据。 (3)数据库设计是尽量避免冗余,一般采用符合范式的规则来设计,数据仓库在设计时有意引入冗余,采用反范式的方式来设计。 (4)数据仓库,是在数据库已经大量存在的情况下,为了进一步挖掘数据资源、为了决策需要而产生的。 (5)数据库是一种逻辑概念,用来存放数据的仓库。数据仓库是数据库概念的升级。数据仓库要比数据库更庞大得多。数据仓库主要用于数据挖掘和数据分析。 举例说明数据挖掘的应用。 1、分类问题:商业案例中,给你一个客户的相关信息,预测一下他未来会成为你的高/中/低价值的客户?一群用户购买了很多产品之后,哪些产品同时购买的几率比较高?买了A产品的同时买哪个产品的几率比较高?可能是由于最初关联分析主要是在超市应用比较广泛,所以又叫“购物篮分析”, 组维表(Dimension Table)组成。 2(也就是),试用图说明FP-树的构建过程,并绘制最终可用于频繁模式挖掘的FP-树(包括树、头表和 交易号 项 项繁项投影 100 I2,I3,I5,I7 I2,I3,I5,I7 200 I1,I2,I6,I7 I2,I6,I7 300 I2,I3,I5,I6,I8 I2,I3,I5,I6 400 I2,I3,I4,I6,I9 I2,I3,I6 节点链) 答:L={(I2:4),(I3:3),(I6:3),(I5:2),(I7:2)} 交易号 项 100 I2,I3,I5,I7 200 I2,I6,I7 300 I2,I3,I6,I5 400 I2,I3,I6 图见P97 十九、如表1 所示数据,所示是交易数据库,最小支持数为2(也就是),试利用Apriori 算法挖掘频繁模式,并写出挖掘的步骤、过程及得出的频繁项集。 答:第四次作业 二十、表 2 是打高尔夫天气形势的训练集。请使用ID3 算法构建决策树。 答:第五次作业 二十一、如下表所示,使用ID3 算法,请决定决策树的根节点使用哪个属性? 答:参考P114 基本一致 二十二、说明分类的基本过程。P108 答:获取数据、预处理、分类器设计、分类决策 二十三、分类的评价准则包括内几个方面,如何计算? 答:精确度、查全率和查准率、F-measure、几何均值(公式见P110) 二十四、利用决策树进行分类有哪些优点? 答:(1)速度快:计算量相对较小,且容易转化成分类规则。只要沿着树根向下一直走到叶,沿途的分裂条件就能够唯一确定一条分类的谓词。 准确性高:挖掘出的分类规则准确性高,便于理解,决策树可以清晰的显示哪些字段比较重要。 二十五、说明使用决策树进行分类的基本步骤。 答:P113 小框框里 二十六、聚类和分类有何区别? 答:分类是事先定义好类别 ,类别数不变 .分类器需要由人工标注的分类训练语料训练得到,属于有指导学习范畴.聚类则没有事先预定的类别,类

文档评论(0)

gangshou + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档