数据挖掘考试复习重点.docVIP

下载本文档

20
0
约4.54千字
约 23页
2016-04-11 发布于湖北
举报
版权申诉

数据挖掘考试复习重点.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

了解商务智能的定义与大数据的四个基本特征；答：商务智能是企业利用数据仓库（DW）、数据挖掘（DM）、在线分析处理（OLAP）、决策支持系统（DSS）等现代信息技术对企业生产、经营过程中产生的大量结构化和非结构化数据进行收集、整理、分析，形成知识或情报，以辅助企业做出正确的决策、采取有效的商务行动、优化商务流程、全面提升商务绩效的工具、方法和技术的统称。大数据特征：（4个V）理解商务智能系统的5层结构商务智能系统结构大致分为五层: 数据源层：也可称作操作型数据层，是整个数据仓库的基础，提供了整个系统最原始的数据数据获取层：也可称作数据转换层，主要是把数据源层的数据通过ETCL过程转换到数据仓库中数据存取层：该层是按主题进行分析和对相关的数据进行挖掘的数据源，包括每一个按主题进行分类的数据集市或专门用于数据挖掘的数据仓库数据分析服务层：该层是数据存储和前端分析工具的桥梁前端展现层：用户界面理解操作型与分析型系统分离的必要性以及他们的特征理解维度爆炸给数据挖掘带来的困难数据过高的维度会给计算带来麻烦，在数据挖掘处理时，它会耗费很多的处理时间和内存容量。数据的高维度还使得数据间的关系也不容易察觉，增加了数据的无关属性和噪音点。掌握数据仓库的定义并理解其四个方面的特征数据仓库是决策支持系统和联机分析应用数据源的结构化数据环境。数据仓库研究和解决从数据库中获取信息的问题。（数据仓库是为支持管理决策建立的，面向主题的、集成的、随时间变化的、相对稳定的数据集合。）【滔注：我觉得写括号里的会好一点】四方面特征：面向主题：主题是指用户使用数据仓库进行决策时所关心的重点忙面。集成性：在数据进入数据仓库之前，要进过统一于综合，将多个异源数据集成在一起。这一步是数据仓库建设中最关键、最复杂的一步。时变性：数据仓库随时间变化不断增加新的数据。相对稳定性：数据仓库反映的是历史的内容，而不是联机数据，主要供企业决策分析之用。掌握数据挖掘的定义并描述其主要特征【数据挖掘定义】从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取隐含在其中的、人们事先不知道的、但又是潜在的有用的信息和知识的过程。数据挖掘是从大量数据中寻找其规律的技术。【主要步骤】（1）数据准备：从各种数据源中选取和集成用于数据挖掘的数据；（2）规律寻找：用某种方法将数据中的规律找出来；（3）规律表示：用尽可能符合用户习惯的方式将找出的规律表示出来。掌握Minkowski距离，并熟练计算l1，l2，l无穷norm 【L1norm】当r=1，城市街区（也称曼哈顿、出租车、L1范数）距离；【L2norm】当r=2，欧几里得距离；【L∞norm】当r=∞，上确界距离，这是对象属性之间的最大距离。理解Hunt’s算法的基本过程通过将训练记录相继划分成较纯的子集,以递归方式建立决策树。设Dt是与t相关联的训练记录集,而Y={ y1,y2,…,y}是类标号,Hunt算法的递归定义如下: (1)如果Dt中所有记录都属于同一个类yt,则t是叶,用yt标记。(2)如果Dt中包含属于多个类的记录,则选择一个属性测试条件,将记录划分成较小的子集。对于测试条件的每个输出,创建一个子女,并根据测试结果将Dt中的记录分布到子女中。然后,对于每个子女,递归地调用该算法掌握吉尼系数、熵的定义，会计算其最大值与最小值，理解信息增益在构造决策树时的意义【基尼系数、熵是度量不纯度的方法】GINI系数和熵都是越小，代表所分的节点属性越纯，最小可取到0，表示这个节点中只有一个类。当一个节点中有n个父节点，而且能分出n个子节点，GINI系数取到最大值，为1-1/n. 熵也取到最大值 log2 n （滔注：那个2是角标，不是log2n ！）【基尼值的性质】：越大越不纯，越小越纯，0最纯，1-1/n最不纯。 b.子节点基尼值 c.最大值、最小值（最小值表示最纯，最大值表示最不纯）【熵】在信息领域熵被用来衡量一个随机变量出现的期望值。熵是对信息的不确定性的度量。熵越低，意味着传输的信息越少。【熵的性质】：熵是衡量节点一致性的函数。熵大于等于0，当且仅当p1=p2=……pn时，熵最大，纯的节点熵是0. 【信息增益】当选择熵作为公式的不纯性度量时熵的差就是所谓的信息增益信息增益描述了当使用Q进行编码时，再使用P进行编码的差异。通常P代表样本或观察值的分布，也有可能是精确计算的理论分布。Q代表一种理论，模型，描述或者对P的近似。理解了解最邻近分类的基本思想，邻近分类的前提条件与分类过程【近邻分类法】是基于类比学习，即通过将给定的检验元组与和它相似的训练元组进行比较来学习。训练元组用n个属性描述。每个元祖代表n维空间的一个点。这样，所有的训练元组都存放在n维模式空间中。当