- 1、本文档共11页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
天行健,君子以自强不息。地势坤,君子以厚德载物。——《周易》
数据挖掘考试题库
1.数据仓库:是一种新的数据处理体系结构,是面向主题的、集
成的、不可更新的(稳定性)、随时间不断
变化(不同时间)的数据集合,为企业决策支持系统提供所需的集成
信息。
2.孤立点:指数据库中包含的一些与数据的一般行为或模型不一
致的异常数据。
3.OLAP:OLAP是在OLTP的基础上发展起来的,以数据仓库为
基础的数据分析处理,是共享多维信息的快速
分析,是被专门设计用于支持复杂的分析操作,侧重对分析人员
和高层管理人员的决策支持。
4.粒度:指数据仓库的数据单位中保存数据细化或综合程度的级
别。粒度影响存放在数据仓库中的数据量
的大小,同时影响数据仓库所能回答查询问题的细节程度。
5.数据规范化:指将数据按比例缩放(如更换大单位),使之落入一
个特定的区域(如0-1)以提高数据挖
掘效率的方法。规范化的常用方法有:最大-最小规范化、零-
均值规范化、小数定标规范化。
6.关联知识:是反映一个事件和其他事件之间依赖或相互关联的
知识。如果两项或多项属性之间存在关联,
那么其中一项的属性值就可以依据其他属性值进行预测。
7.数据挖掘:从大量的、不完全的、有噪声的、模糊的、随机的
数据中,提取隐含在其中的、人们事先不
知道的、但又是潜在有用的信息和知识的过程。
8.OLTP:OLTP为联机事务处理的缩写,OLAP是联机分析处理的
缩写。前者是以数据库为基础的,面对的是
操作人员和低层管理人员,对基本数据进行查询和增、删、改等
处理。
9.ROLAP:是基于关系数据库存储方式的,在这种结构中,多维
天行健,君子以自强不息。地势坤,君子以厚德载物。——《周易》
数据被映像成二维关系表,通常采用星型或
雪花型架构,由一个事实表和多个维度表构成。
10.MOLAP:是基于类似于“超立方”块的OLAP存储结构,由
许多经压缩的、类似于多维数组的对象构成,
并带有高度压缩的索引及指针结构,通过直接偏移计算进行存取。
11.数据归约:缩小数据的取值范围,使其更适合于数据挖掘算法
的需要,并且能够得到和原始数据相同的
分析结果。
12.广义知识:通过对大量数据的归纳、概括和抽象,提炼出带有
普遍性的、概括性的描述统计的知识。
13.预测型知识:是根据时间序列型数据,由历史的和当前的数据
去推测未来的数据,也可以认为是以时间
为关键属性的关联知识。
14.偏差型知识:是对差异和极端特例的描述,用于揭示事物偏离
常规的异常现象,如标准类外的特例,数
据聚类外的离群值等。
15.遗传算法:是一种优化搜索算法,它首先产生一个初始可行解
群体,然后对这个群体通过模拟生物进化
的选择、交叉、变异等遗传操作遗传到下一代群体,并最终达到
全局最优。
16.聚类:是将物理或抽象对象的集合分组成为多个类或簇
(cluster)的过程,使得在同一个簇中的对象之间
具有较高的相似度,而不同簇中的对象差别较大。
17.决策
文档评论(0)