四分类方法-Read.ppt

下载文档 降价啦

16
0
约3.43千字
约 18页
2017-05-26 发布于天津
举报
版权申诉
保障服务

四分类方法-Read.ppt

1、本文档共18页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

四分类方法-Read

Data Mining: Concepts and Techniques 四分类方法分类的基本概念与步骤基于距离的分类算法决策树分类方法贝叶斯分类规则归纳分类是数据挖掘中重要的任务分类的目的是学会一个分类器（分类函数或模型），该分类器能把待分类的数据映射到给定的类别中。分类可用于预测。从利用历史数据纪录中自动推导出对给定数据的推广描述，从而能对未来数据进行类预测。分类具有广泛的应用，例如医疗诊断、信用卡系统的信用分级、图像模式识别等。分类器的构造依据的方法很广泛：统计方法：包括贝叶斯法和非参数法等。机器学习方法：包括决策树法和规则归纳法。神经网络方法。其他，如粗糙集等（在前面绪论中也介绍了相关的情况）。分类方法的类型从使用的主要技术上看，可以把分类方法归结为四种类型：基于距离的分类方法决策树分类方法贝叶斯分类方法规则归纳方法。分类问题的描述定义4-1 给定一个数据库 D={t1，t2，…，tn}和一组类 C={C1，…，Cm}，分类问题是去确定一个映射 f: D?C，使得每个元组ti被分配到一个类中。一个类Cj 包含映射到该类中的所有元组，即Cj = {ti | f(ti) = Cj，1 ≤ i ≤ n，而且ti ?D}。例如，把学生的百分制分数分成A、B、C、D、F五类，就是一个分类问题： D是包含百分制分数在内的学生信息， C={A、B、C、D、F}。解决分类问题的关键是构造一个合适的分类器：从数据库到一组类别集的映射。一般地，这些类是被预先定义的、非交叠的。数据分类的两个步骤 1．建立一个模型，描述预定的数据类集或概念集数据元组也称作样本、实例或对象。为建立模型而被分析的数据元组形成训练数据集。训练数据集中的单个元组称作训练样本，由于提供了每个训练样本的类标号，因此也称作有指导的学习。通过分析训练数据集来构造分类模型，可用分类规则、决策树或数学公式等形式提供。 2．使用模型进行分类首先评估模型（分类法）的预测准确率。如果认为模型的准确率可以接受，就可以用它对类标号未知的数据元组或对象进行分类。基于距离的分类算法的思路定义4-2 给定一个数据库 D={t1，t2，…，tn}和一组类C={C1，…，Cm}。假定每个元组包括一些数值型的属性值：ti={ti1，ti2，…，tik}，每个类也包含数值性属性值：Cj={Cj1，Cj2，…，Cjk}，则分类问题是要分配每个ti到满足如下条件的类Cj： sim(ti，Cj)=sim(ti，Cl) ，?Cl∈C，Cl≠Cj，其中sim(ti，Cj)被称为相似性。在实际的计算中往往用距离来表征，距离越近，相似性越大，距离越远，相似性越小。距离的计算方法有多种，最常用的是通过计算每个类的中心来完成。决策树表示与例子决策树（Decision Tree）的每个内部结点表示在一个属性上的测试，每个分枝代表一个测试输出，而每个树叶结点代表类或类分布。树的最顶层结点是根结点。 buys_computer的决策树示意决策树分类的特点决策树分类方法采用自顶向下的递归方式，在决策树的内部结点进行属性值的比较并根据不同的属性值判断从该结点向下的分枝，在决策树的叶结点得到结论。所以从决策树的根到叶结点的一条路径就对应着一条合取规则，整棵决策树就对应着一组析取表达式规则。基于决策树的分类算法的一个最大的优点就是它在学习过程中不需要使用者了解很多背景知识（这同时也是它的最大的缺点），只要训练例子能够用属性-结论式表示出来，就能使用该算法来学习。决策树分类模型的建立通常分为两个步骤： 1、决策树生成 2、决策树修剪主要算法有： 1、ID3算法 2、 C4.5算法贝叶斯分类定义4-2 设X是类标号未知的数据样本。设H为某种假定，如数据样本X属于某特定的类C。对于分类问题，我们希望确定P(H|X)，即给定观测数据样本X，假定H成立的概率。贝叶斯定理给出了如下计算P(H|X)的简单有效的方法: P(H)是先验概率，或称H的先验概率。P(X |H)代表假设H成立的情况下，观察到X的概率。P(H| X )是后验概率，或称条件X下H的后验概率。贝叶斯分类器对两种数据具有较好的分类效果：一种是完全独立的数据，另一种是函数依赖的数据。朴素贝叶斯分类朴素贝叶斯分类的工作过程如下： (1)? 每个数据样本用一个n维特征向量X= {x1，x2，……，xn}表示，分别描述对n个属性A1，A2，……，An样本的n个度量。 (2) 假定有m个类C1，C2，…，Cm，给定一个未知的数据样本X（即没有类标号），分类器将预测X属于具有最高后验概率（条件X下）的类。也就是说，朴素贝叶斯分类