- 1、本文档共14页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘知识点
简答题
(第一章) 数据库与数据仓库的不同:数据库用于事物处理,数据仓库用于决策分析;数据库保持事物处理的当前状态,数据仓库既保存过去的数据也保存当前的数据;数据仓库的数据是大量数据库的集成;对数据库的操作比较明确,操作数量少。
(第三章)广义OLAP功能如何提高多维数据分析能力:绝对模型(静态数据分析,通过比较历史数据值或行为来描述过去发生的事实)该模型查询比较简单,综合路径是预先定义好的,用户交互少;解释模型(属于静态数据分析,分析人员利用系统已有的多层次的综合路径层层细化(进行向下钻取操作),找出事实发生的原因);思考模型(属于动态数据分析,旨在说明在一维或多维上引入一组具体变量或参数后将会发生什么。)分析人员在引入确定的变量或公式关系时,须创建大量的综合路径;公式模型(它的动态分析能力更强,该模型表示在多个维上,需要引入那些变量或参数,以及引入后所产生的后果。)
(第四章)概念模型的特点:能真实反映现实世界,能满足用户对数据的分析,达到决策支持的要求,它是现实世界的一个真实模型;易于理解,有利于和用户交换意见,在用户的参与下,能有效地完成数据仓库的成功设计;易于更改,当用户要求发生变化时,容易对概念模型进行修改和扩充;易于向数据仓库的数据模型转换。
(第五章)数据仓库增长的原因:
数据仓库收集历史数据; 数据仓库包含满足未知需求的数据收集;数据仓库不仅有详细数据,还有占数据存储比例很大的汇总数据;数据仓库包括外部数据,用来支持多种可预测的数据挖掘任务
其他题型:
(第一章)数据仓库的定义与特点(选择或判断)
数据仓库是面向主题的、集成的、稳定的、不同时间的数据集合,用于支持经营管理中决策制定过程。
特点:是面向主题的,集成的,稳定的,是随时间变化的,数据仓库的数据量很大,数据仓库软硬件要求较高(需要一个巨大的硬件平台,需要一个并行的数据库系统)。
OLAP与OLTP的区别:OLAP专门用于支持复杂的分析操作,侧重对分析员和高层管理人员的决策支持,(基本思想是从决策者的多方面多角度以多维的形式还观察企业的状态和了解企业的变化)
OLTP(是事务处理从单机到网络环境的发展新阶段。主要应用于银行,航空,邮件订单,超级市场和制造业的输入数据和取回交易数据。)在于事务处理量大,应用要求多个并行处理,事务处理内容比较简单且重复率高。
(第二章)数据仓库结构的了解(图):
数据仓库是在原有关系型数据库基础上发展形成的但由于不同于数据库系统的组织形式,它从原有的大量业务数据中获得的数据,经过转换后形成当前基本数据层,它经综合后形成轻度综合数据层,轻度综合数据在经过综合形成高度综合数据层,数据仓库结构包括前基本数据,历史基本数据,轻度综合数据,高度综合数据和元数据
当前基本数据是最近时期的业务数据,是数据仓库用户最感兴趣的部分,数据量大。当前基本数据随着时间的推移,由数据仓库的时间控制机制转为历史基本数据,一般被转存于介质中,如磁盘。轻度综合数据是从当前基本数据中提取出来的,设计这层数据结构时会遇到综合处理数据的时间段选取,综合数据包含哪些数据属性和内容等问题。最高一层是综合数据层,该层数据十分精炼,是一种准决策数据。
粒度(选择或判断):(粒子度与综合)指数据仓库的数据单元中保存数据的细化活综合程度的级别,细化程度越详细,粒度级就越低。粒度大综合级别高,粒度小详细级别高。在低粒度级上,纪录详细。高粒度级只需要少得多的字节存放数据,且只需要较少的索引项。数据存储效率高。当提高数据力度时,数据所能回答查询的能力降低。且小粒度的数据可以回答任何问题,但高粒度数据回答的问题具有宏观性。
当提高数据粒度级时,数据所能回答查询的能力就会随之降低。换句话说,在一个很低的粒度级上,实际可以回答任何问题,但在高粒度级上,数据所能处理的问题的数量是有限的。
元数据(选择判断,综合分析):在数据仓库建设过程中产生的有关数据源定义、目标定义、转换规则等关键数据,是定义数据仓库对象的数据。包含的信息有:数据仓库的目录信息、数据从业务环境向数据仓库环境转换时的目录内容、指导从当前基本数据到轻度综合数据的算法选择、轻度综合数据到高度综合数据的综合算法的选择。
(第三章)OLAP基本概念:
变量:变量是数据的实际意义,即描述数据“是什么”。例如:销售量、销售额,……而具体数据(如“10000”)是变量的一个值
维:维是人们观察数据的特定角度。如产品维、顾客维、时间维,地理位维等。
维的层次:数据的细节不同程度为维的层次。特定角度的不同细节程度,通常称这描述的多个方面叫维的层次,一个微往往具有很多个层次,例如,描述时间维时,日期,季度,年,就是时间维的层次。城市,地区国家就地理维的层次。
维成员:维的一个取值(
文档评论(0)