数据挖掘考试复习资料.docxVIP

下载本文档

3
0
约9.2千字
约 10页
2022-06-27 发布于山东
举报
版权申诉

数据挖掘考试复习资料.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据挖掘考试复习资料一、名词解释 1、数据库房：面向主题的、集成的、非易失的、是随时间变化的数据会合，用来支持管理决议. 2、聚类：将物理或抽象对象的会合分红由近似的对象组成的多个类的过程被称为聚类 3、数据挖掘：从大量的数据中挖掘那些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识 4、人工神经网络：人工神经网络是一种应用近似于大脑神经突触联接的结构进行信息办理的数学模型。在工程与学术界也常直接简称为神经网络或类神经网络. 5、文本挖掘：文本数据挖掘（TextMining）是指从文本数据中抽取有价值的信息和知识的计算机办理技术 6、OLAP：又称联机剖析办理，是使剖析人员、管理人员或履行人员能够从多种角度对从原始数据中转变出来的、能够真切为用户所理解的、并真切反应公司为特性的信息进行快速、一致、交互地存取,进而获得对数据的更深入认识的一类软件技术。定义1：OLAP是针对特定问题的联机数据接见和剖析。经过对信息（维数据)的多种可能的察看形式进行快速、稳定一致和交互性的存取，允许管理决议人员对数据进行深入地察看。定义2：OLAP是使剖析人员、管理人员或履行人员能够从多种角度对从原始数据中转变出来的、能够真切为用户所理解的、并真切反应公司“维”特性的信息进行快速、一致、交互地存取，进而获得对数据的更深入认识的一类软件技术。) 7、观点描绘：就是对目标类对象的内涵进行描绘,并归纳这类对象的有关特征.特点化：提供给定数据聚集的简短汇总比较：提供两个或多个数据聚集的比较描绘 8、信息熵：在信息论中，熵被用来权衡一个随机变量出现的希望值.它代表了在被接收从前，信号传输过程中损失的信息量，又被称为信息熵。信息熵也称信源熵、平均自信息量。二、简答题 1、数据库房和传统数据库的区别和联系是什么? （1）区别:数据库房和数据库是不同的观点数据库房是一个综合的解决方案，而数据库只是一个现成的产品。数据库房需要一个功能十分强大的数据库引擎来驱动，它更偏向于工程。数据库房系统和传统数据库系统相比，不同点表现在以下几方面. (2）联系：数据库是数据管理技术，是计算机科学的重要分支，其应用已从一般管理扩大到计算机协助设计、人工智能以及科技计算等领域.数据库房是一个面向主题的、集成的、相对稳定的、反应历史变化的数据会合，用于支持管理决议，是20世纪末到21世纪初数据库市场的一个新的增长点。数据库房的数据经常来自于多个数据源，寄存模式一致,数据一般驻留在单个站点，数据库房中的数据已经清理、变换、集成于装载,并定期刷新,数据库房中的数据是海量的,数据库房所要研究和解决的问题就是从数据库中的获取信息. 数据库房的出现，并不是要取代数据库。当前，大多数数据库房仍是用关系数据库管理系统来管理的。能够说,数据库、数据库房相辅相成、各有千秋。 2、数据挖掘的主要功能是什么? 数据挖掘的目标是从数据库中发现隐含的、存心义的知识，主要有以下五类功能。 1)自动预测趋势和行为——数据挖掘自动在大型数据库中进行分类和预测、寻找预测性信息,自动地提出描绘重要数据类的模型或预测未来的数据趋势。 2）关系剖析——数据关系是数据库中存在的一类重要的可被发现的知识，若两个或两个以上变量的取值之间存在某种规律性,就称为关系。 (3）聚类—-聚类就是按一定的规则将数据区分为合理的会合，即将对象分组为多个类或簇，使得在同一个簇中的对象之间拥有较高的相像度,而在不同簇中的对象差别很大。（4）观点描绘-—就是对目标类对象的内涵进行描绘，并归纳这类对象的有关特点. (5）偏差检测——数据库中的数据常有一些异样记录，从数据库中检测这些偏差很存心义。 3、简述OLAP在多维数据模型中的几个基本操作？ 1）切片：在多维数组的某一维上选定一维成员的动作成为切片。 2）切块：在多维数组的某一维上选定某一区间的维成员的动作。 3）旋转:旋转既是改变一个报告或许页面的维方向 4)钻取.钻取办理是使用户在数据库房的多层数据中，能够经过导航信息而获得更多的细节性数据，钻取一般是指向下钻取。 4、数据挖掘的步骤包括哪些？ ①理解数据和数据的根源②获取有关知识与技术③整合与检查数据 ④去除错误或不一致的数据⑤成立模型和假定⑥实际数据挖掘工作 ⑦测试和考证挖掘结果⑧解释和应用 1)数据准备:包括数据的选择、净化、推断、变换数据减少。数据准备包括：选择数据——在大型数据库和数据库房目标中提取数据挖掘的目标数据集；数据预办理--进行数据再加工，包括检查数据的完整性及数据的一致性、去噪声，填补丢掉的域，删除无效数据等. 数据挖掘:采用的技术有——决议树、分类、聚类、粗拙集、关系规则、神经网络、遗传算了.数据挖掘根据KDD的日标,选用相应算法的参数,获得可能形成知识的模式模型。