数据分析和挖掘相关的十个问题.docxVIP

下载本文档

3
0
约2.84千字
约 3页
2017-08-19 发布于浙江
举报
版权申诉

数据分析和挖掘相关的十个问题.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据分析和挖掘相关的十个问题

什么是分类问题？常用的分类算法有哪些？比较和评估分类算法优劣的标准有哪些？分类是数据挖掘的一个重要课题。分类的目的是获得一个分类模型（常称作分类器），该模型能把数据库中的数据项映射到给定类别中的某一个。分类可用于提取描述重要数据类的模型或预测未来的数据趋势。常用的分类算法有决策树、贝叶斯、神经网络、K-近邻、支持向量机和基于关联规则的分类算法等。用来比较和评估分类方法的标准主要有：（1）预测的准确率，模型正确地预测新样本的类标号的能力；（2）计算速度，包括构造模型以及使用模型进行分类的时间；（3）稳健性，模型对噪声数据或空缺值数据正确预测的能力；（4）可伸缩性，对于数据量很大的数据集，有效构造模型的能力；（5）模型描述的简洁性和可解释性。什么是聚类分析？聚类和分类有什么不同？常用的聚类分析的方法有哪些？聚类分析是一种将研究对象分为相对同质的群组（簇）的统计分析技术；在同一个簇中的对象之间具有较高的相似度，而不同簇中的对象差别较大。聚类与分类的不同在于，聚类所要求划分的类是未知的，是无监督的学习，而分类是事先定义好了类别，是有监督的学习。常用的聚类分析方法有分层聚类法、K-均值聚类法、两阶段聚类法。分层聚类法是目前使用最多的一种方法，其基本思想是首先将各个对象看作一类，然后将距离最近的两类合并为一个新类，再计算新类和其他类之间的距离，从中找出最近的两类合并，继续下去，直到所有的对象都在一类。K-均值聚类法处理速度快，特别适合处理大样本的数据，但只能对样本进行聚类，需要事前指定分类数目，要求聚类变量是连续型变量。什么是主成分分析？主成分分析的运用？主成分分析（PCA）是一种数据降维方法，它将原来较多的相关变量转化为一组很少的不相关变量，同时尽可能保留原始变量的信息。这组不相关的变量称为主成分，它们是原始变量的线性组合。根据主成分所含信息量的大小，称为第一主成分、第二主成分等。主成分分析的运用：（1）对一组内部相关的变量作简化的描述；（2）用来削减回归分析、分类或聚类分析中变量的数目；（3）用来识别变量的重要性程度（如计算满意度权重）；（4）用来检查异常点等什么是因子分析？因子分析的模型描述？因子分析是从研究原始变量相关系数矩阵或协方差系数矩阵内部的依赖关系出发，把一些具有错综复杂关系的变量归结为少数几个因子，以再现原始变量与因子之间的相互关系的一种多元统计分析方法。因子分析的目的是用有限个不可观察的潜在变量来解释原始变量间的相关性或协方差关系，这里不可观察的潜在变量称为公共因子。设为p个变量，因子分析的数学模型表达：其中称为公共因子，m≤p ，它们的系数称为因子载荷， ei称为特殊因子，是不能被m个公共因子包含的部分。什么是异常值挖掘？常用的异常值挖掘方法有哪些？异常值是在数据集中偏离大部分数据的数据，使人怀疑这些数据并非随机因素产生，而是产生于完全不同的机制（Hawkins定义）。异常数据挖掘可以描述为: 给定一个n个数据点或对象的集合,以及预期的异常点的数目k，目标是发现与其它的数据相比是显著相异的、异常的或者不一致的前 k 个对象。异常数据挖掘问题可以分解为两个子问题：（1）如何度量异常；（2）如何有效发现异常。常用的异常数据挖掘方法有：基于统计的方法、基于距离的方法、基于密度的方法、基于聚类的方法等什么是决策树算法？典型的决策树算法有哪些？从数据产生决策树的机器学习技术叫做决策树学习,通俗说就是决策树。决策树位于十大机器学习算法之首，在机器学习中，决策树是一个预测模型；它代表的是对象属性与对象值之间的一种映射关系；它采用自顶向下的递归方式，在决策树的内部节点进行属性的比较，并根据不同属性值判断从该节点向下的分支，在决策树的叶节点得到结论。如何构造精度高、规模小的决策树是决策树算法的核心内容。代表性的决策树算法有ID3、C4.5、CART等。什么是贝叶斯分类算法？贝叶斯分类算法的基本思想？贝叶斯分类算法是是统计学中的一种分类方法，它基于贝叶斯定理，是一种在已知先验概率与条件概率的情况下的模式分类方法，待分样本的分类结果取决于各类域中样本的全体。基本思想：假定每个数据样本用一个n维特征向量来描述n个属性的值，即X={x1，x2，…，xn}，有m个类，分别用C1, C2,…，Cm表示。给定一个待分类的数据样本X，求解在X出现的条件下各类别Ci(i=1,2,..,m)出现的概率P(Ci|X)，哪个P(Ci|X)最大，就把X判为哪一类；据贝叶斯定理，由于P(X)对于所有类为常数，最大化后验概率P(Ci|X)可转化为最大化先验概率P(X|Ci)P(Ci)。朴素贝叶斯算法假设各属性之间互相独立，这样先验概率P(X|Ci)=P(x1|Ci)P(x2|Ci)…(xn|Ci)可以从训练数据集求