数据挖掘精品要点解析.pptVIP

下载本文档

3
0
约2.26千字
约 27页
2016-04-23 发布于湖北
举报
版权申诉

数据挖掘精品要点解析.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Part7_0 Classification 分类是数据挖掘的基本功能之一。分类问题是一个普遍存在的问题，有许多不同的应用：根据Email的标题和内容过滤垃圾邮件根据核磁共振扫描的结果区分肿瘤是良性或恶性信用分级、市场调查、图像模式识别… … 一、分类概述 1、分类的任务与目的分类的任务是通过分析由已知类别数据对象组成的训练数据集，建立描述并区分数据对象类别的分类函数或分类模型（也常常称作分类器）。分类的目的是利用分类模型把未知类别数据对象映射到各定的类别中。 Age Salary Class 30 high c1 25 high c2 21 low c2 43 high c1 18 low c2 33 low c1 … … … 描述属性类别属性分类问题使用的数据集格式：描述属性可以是连续型属性，也可以是离散型属性；而类别属性必须是离散型属性。分类可用于预测。从历史数据记录中自动推导出对给定数据的推广描述，从而能对未来数据进行类预测。数据分类与数值预测都是预测问题，都是首先通过分析训练数据集建立模型，然后利用模型预测数据对象。 2、分类与预测 2、分类与预测的区别在数据挖掘中，如果预测目标是数据对象在类别属性（离散属性）上的取值（类别），则称为分类；如果预测目标是数据对象在预测属性（连续属性）上的取值或取值区间，则称为预测。例如，对100名男女进行体检，测量了身高和体重，但是事后发现，a和b两人忘了填写性别，c和d两人漏了记录体重。现在根据其他96人的情况，推断a和b两人的性别是分类，而估计c和d两人的体重是预测。 3、分类定义给定一个数据库 D={t1，t2，…，tn}和一组类 C={C1，…，Cm}，分类问题是去确定一个映射 f: D?C，使得每个元组ti被分配到一个类中。一个类Cj 包含映射到该类中的所有元组，即Cj = {ti | f(ti) = Cj，1 ≤ i ≤ n，而且ti ?D}。例如，把学生的百分制分数分成A、B、C、D、E五类，就是一个分类问题： D是包含百分制分数在内的学生信息， C={A、B、C、D、E}。解决分类问题的关键是构造一个合适的分类器：从数据库到一组类别集的映射。一般地，这些类是被预先定义的、非交叠的。 1．建立一个模型，描述预定的数据类集或概念集 4、分类的过程 2．使用模型进行分类首先评估模型（分类法）的预测准确率。如果认为模型的准确率可以接受，就可以用它对类标号未知的数据元组或对象进行分类。 Step1：模型的构建 4、分类的过程 Step2：利用模型分类 4、分类的过程有指导 vs.无指导的学习有指导的学习 (分类) 指导: 训练数据是已经被标注好类标号的数据，用来进行有指导的分类。新数据是基于训练集进行分类的。无指导的学习 (聚类) 训练数据的类标号不可知是观察式学习分类器的构造依据的方法很广泛：近邻分类机器学习方法：包括决策树法和规则归纳法统计方法：包括贝叶斯法和非参数法等神经网络方法遗传算法 SVM 粗糙集 … … 5、分类的方法 6、分类模型的评价准则给定测试集Xtest={(xi,yi)|i=1,2,…,N} N表示测试集中的样本个数 xi表示测试集中的数据样本 yi表示数据样本xi的类标号对于测试集的第j个类别，假设被正确分类的样本数量为TPj 被错误分类的样本数量为FNj 其他类别被错误分类为该类的样本数据量为FPj 精确度：代表测试集中被正确分类的数据样本所占的比例 6、常用的评价准则——精确度/准确率混淆矩阵是另外一种表示分类准确率的方法。显然，最好解决方案是对角线以外的值全为零。预测的类类=1 类=2 实际的类类=1 TP1 FN1/FP2 类=2 FN2/FP1 TP2 6、常用的评价准则——查全率和查准率查全率：表示在本类样本中被正确分类的样本所占的比例查准率：表示被分类为该类的样本中，真正属于该类的样本所占的比例 6、常用的评价准则——F-measure F-measure：是查全率和查准率的组合表达式 β是可以调节的，通常取值为1 6、常用的评价准则——G-mean（几何均值）几何均值：是各个类别的查全率的平方根分类器性能的表示分类器性能的表示方法类似信息检索系统的评价方法，可以采用OC曲线和ROC曲线、混淆矩阵等。定义给定一个类Cj和一个数据库元组ti，ti可能被分类器判定为属于Cj或不属于Cj，其实ti本身可能属于Cj或不属于Cj，这样就会产生如下一些情况：真正: 判定ti在Cj中，实际上的确在其中。假正: 判定ti在Cj中，实际上不在其中。真负: 判定ti不在Cj中，实际上不在其中。假负: 判定ti不在Cj中