网站大量收购闲置独家精品文档,联系QQ:2885784924

数据挖掘考试题库.pdf

  1. 1、本文档共11页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

天行健,君子以自强不息。地势坤,君子以厚德载物。——《周易》

数据挖掘考试题库

1.数据仓库:是一种新的数据处理体系结构,是面向主题的、集

成的、不可更新的(稳定性)、随时间不断

变化(不同时间)的数据集合,为企业决策支持系统提供所需的集成

信息。

2.孤立点:指数据库中包含的一些与数据的一般行为或模型不一

致的异常数据。

3.OLAP:OLAP是在OLTP的基础上发展起来的,以数据仓库为

基础的数据分析处理,是共享多维信息的快速

分析,是被专门设计用于支持复杂的分析操作,侧重对分析人员

和高层管理人员的决策支持。

4.粒度:指数据仓库的数据单位中保存数据细化或综合程度的级

别。粒度影响存放在数据仓库中的数据量

的大小,同时影响数据仓库所能回答查询问题的细节程度。

5.数据规范化:指将数据按比例缩放(如更换大单位),使之落入一

个特定的区域(如0-1)以提高数据挖

掘效率的方法。规范化的常用方法有:最大-最小规范化、零-

均值规范化、小数定标规范化。

6.关联知识:是反映一个事件和其他事件之间依赖或相互关联的

知识。如果两项或多项属性之间存在关联,

那么其中一项的属性值就可以依据其他属性值进行预测。

7.数据挖掘:从大量的、不完全的、有噪声的、模糊的、随机的

数据中,提取隐含在其中的、人们事先不

知道的、但又是潜在有用的信息和知识的过程。

8.OLTP:OLTP为联机事务处理的缩写,OLAP是联机分析处理的

缩写。前者是以数据库为基础的,面对的是

操作人员和低层管理人员,对基本数据进行查询和增、删、改等

处理。

9.ROLAP:是基于关系数据库存储方式的,在这种结构中,多维

天行健,君子以自强不息。地势坤,君子以厚德载物。——《周易》

数据被映像成二维关系表,通常采用星型或

雪花型架构,由一个事实表和多个维度表构成。

10.MOLAP:是基于类似于“超立方”块的OLAP存储结构,由

许多经压缩的、类似于多维数组的对象构成,

并带有高度压缩的索引及指针结构,通过直接偏移计算进行存取。

11.数据归约:缩小数据的取值范围,使其更适合于数据挖掘算法

的需要,并且能够得到和原始数据相同的

分析结果。

12.广义知识:通过对大量数据的归纳、概括和抽象,提炼出带有

普遍性的、概括性的描述统计的知识。

13.预测型知识:是根据时间序列型数据,由历史的和当前的数据

去推测未来的数据,也可以认为是以时间

为关键属性的关联知识。

14.偏差型知识:是对差异和极端特例的描述,用于揭示事物偏离

常规的异常现象,如标准类外的特例,数

据聚类外的离群值等。

15.遗传算法:是一种优化搜索算法,它首先产生一个初始可行解

群体,然后对这个群体通过模拟生物进化

的选择、交叉、变异等遗传操作遗传到下一代群体,并最终达到

全局最优。

16.聚类:是将物理或抽象对象的集合分组成为多个类或簇

(cluster)的过程,使得在同一个簇中的对象之间

具有较高的相似度,而不同簇中的对象差别较大。

17.决策

文档评论(0)

132****5916 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档