数据挖掘考试复习资料.docx

下载文档 降价啦

12
0
约9.02千字
约 10页
2017-10-01 发布于重庆
举报
版权申诉
保障服务

数据挖掘考试复习资料.docx

1、本文档共10页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

数据挖掘考试复习资料

数据挖掘考试复习资料名词解释数据仓库：面向主题的、集成的、非易失的、是随时间变化的数据集合，用来支持管理决策。聚类：将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类数据挖掘：从大量的数据中挖掘那些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识人工神经网络：人工神经网络是一种应用类似于大脑神经突触联接的结构进行信息处理的数学模型。在工程与学术界也常直接简称为神经网络或类神经网络。文本挖掘：文本数据挖掘(Text Mining)是指从文本数据中抽取有价值的信息和知识的计算机处理技术OLAP：又称联机分析处理，是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业为特性的信息进行快速、一致、交互地存取，从而获得对数据的更深入了解的一类软件技术。定义1：OLAP是针对特定问题的联机数据访问和分析。通过对信息(维数据)的多种可能的观察形式进行快速、稳定一致和交互性的存取，允许管理决策人员对数据进行深入地观察。定义2：OLAP是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业“维”特性的信息进行快速、一致、交互地存取，从而获得对数据的更深入了解的一类软件技术。）概念描述：就是对目标类对象的内涵进行描述，并概括这类对象的有关特征。特征化：提供给定数据汇集的简洁汇总比较：提供两个或多个数据汇集的比较描述信息熵：在信息论中，熵被用来衡量一个随机变量出现的期望值。它代表了在被接收之前，信号传输过程中损失的信息量，又被称为信息熵。信息熵也称信源熵、平均自信息量。简答题数据仓库和传统数据库的区别和联系是什么？（1）区别：数据仓库和数据库是不同的概念数据仓库是一个综合的解决方案，而数据库只是一个现成的产品。数据仓库需要一个功能十分强大的数据库引擎来驱动，它更偏向于工程。数据仓库系统和传统数据库系统相比，不同点表现在以下几方面。（2）联系：数据库是数据管理技术,是计算机科学的重要分支,其应用已从一般管理扩大到计算机辅助设计、人工智能以及科技计算等领域.数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策,是20世纪末到21世纪初数据库市场的一个新的增长点.数据仓库的数据常常来自于多个数据源,存放模式一致,数据一般驻留在单个站点,数据仓库中的数据已经清理、变换、集成于装载,并定期刷新,数据仓库中的数据是海量的,数据仓库所要研究和解决的问题就是从数据库中的获取信息.数据仓库的出现，并不是要取代数据库。目前，大部分数据仓库还是用关系数据库管理系统来管理的。可以说，数据库、数据仓库相辅相成、各有千秋。 2、数据挖掘的主要功能是什么？数据挖掘的目标是从数据库中发现隐含的、有意义的知识，主要有以下五类功能。 (1)自动预测趋势和行为——数据挖掘自动在大型数据库中进行分类和预测、寻找预测性信息，自动地提出描述重要数据类的模型或预测未来的数据趋势。(2)关联分析——数据关联是数据库中存在的一类重要的可被发现的知识，若两个或两个以上变量的取值之间存在某种规律性，就称为关联。(3)聚类 ——聚类就是按一定的规则将数据划分为合理的集合，即将对象分组为多个类或簇，使得在同一个簇中的对象之间具有较高的相似度，而在不同簇中的对象差别很大。(4)概念描述——就是对目标类对象的内涵进行描述，并概括这类对象的有关特征。(5)偏差检测——数据库中的数据常有一些异常记录，从数据库中检测这些偏差很有意义。简述OLAP在多维数据模型中的几个基本操作？（1）切片：在多维数组的某一维上选定一维成员的动作成为切片。（2）切块：在多维数组的某一维上选定某一区间的维成员的动作。（3）旋转：旋转既是改变一个报告或者页面的维方向（4）钻取。钻取处理是使用户在数据仓库的多层数据中，能够通过导航信息而获得更多的细节性数据，钻取一般是指向下钻取。数据挖掘的步骤包括哪些？① 理解数据和数据的来源 ② 获取相关知识与技术 ③ 整合与检查数据 ④ 去除错误或不一致的数据 ⑤ 建立模型和假设 ⑥ 实际数据挖掘工作 ⑦ 测试和验证挖掘结果 ⑧ 解释和应用（1）数据准备:包括数据的选择、净化、推测、转换数据缩减。?数据准备包括：选择数据--在大型数据库和数据仓库目标中提取数据挖掘的目标数据集；数据预处理--进行数据再加工，包括检查数据的完整性及数据的一致性、去噪声，填补丢失的域，删除无效数据等。(2)数据挖掘:采用的技术有——决策树、分类、聚类、粗糙集、关联规则、神经网络、遗传算了。数据挖掘根据KDD的日标，选取相应算法的参数，得到可能形成知识的模式模型。(3)评估、解释模式模型:上面得到的模式模型，需要评估以确定哪些是有效的模