[工学]数据挖掘原理与算法04.ppt

下载文档 降价啦

13
0
约2.83万字
约 97页
2018-03-27 发布于浙江
举报
版权申诉
保障服务

[工学]数据挖掘原理与算法04.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

[工学]数据挖掘原理与算法04

Data Mining: Concepts and Techniques 第三章分类方法内容提要分类的基本概念与步骤基于距离的分类算法决策树分类方法贝叶斯分类规则归纳与分类有关的问题分类是数据挖掘中重要的任务分类的目的是学会一个分类器（分类函数或模型），该分类器能把待分类的数据映射到给定的类别中。分类可用于预测。从利用历史数据纪录中自动推导出对给定数据的推广描述，从而能对未来数据进行类预测。分类具有广泛的应用，例如医疗诊断、信用卡系统的信用分级、图像模式识别等。分类器的构造依据的方法很广泛：统计方法：包括贝叶斯法和非参数法等。机器学习方法：包括决策树法和规则归纳法。神经网络方法。其他，如粗糙集等（在前面绪论中也介绍了相关的情况）。分类方法的类型从使用的主要技术上看，可以把分类方法归结为四种类型：基于距离的分类方法决策树分类方法贝叶斯分类方法规则归纳方法。本章将择选一些有代表性的方法和算法来介绍这四类分类方法。分类问题的描述定义4-1 给定一个数据库 D={t1，t2，…，tn}和一组类 C={C1，…，Cm}，分类问题是去确定一个映射 f: D?C，使得每个元组ti被分配到一个类中。一个类Cj 包含映射到该类中的所有元组，即Cj = {ti | f(ti) = Cj，1 ≤ i ≤ n，而且ti ?D}。例如，把学生的百分制分数分成A、B、C、D、F五类，就是一个分类问题： D是包含百分制分数在内的学生信息， C={A、B、C、D、F}。解决分类问题的关键是构造一个合适的分类器：从数据库到一组类别集的映射。一般地，这些类是被预先定义的、非交叠的。数据分类的两个步骤 1．建立一个模型，描述预定的数据类集或概念集数据元组也称作样本、实例或对象。为建立模型而被分析的数据元组形成训练数据集。训练数据集中的单个元组称作训练样本，由于提供了每个训练样本的类标号，因此也称作有指导的学习。通过分析训练数据集来构造分类模型，可用分类规则、决策树或数学公式等形式提供。 2．使用模型进行分类首先评估模型（分类法）的预测准确率。如果认为模型的准确率可以接受，就可以用它对类标号未知的数据元组或对象进行分类。基于距离的分类算法的思路定义4-2 给定一个数据库 D={t1，t2，…，tn}和一组类C={C1，…，Cm}。假定每个元组包括一些数值型的属性值：ti={ti1，ti2，…，tik}，每个类也包含数值性属性值：Cj={Cj1，Cj2，…，Cjk}，则分类问题是要分配每个ti到满足如下条件的类Cj： sim(ti，Cj)=sim(ti，Cl) ，?Cl∈C，Cl≠Cj，其中sim(ti，Cj)被称为相似性。在实际的计算中往往用距离来表征，距离越近，相似性越大，距离越远，相似性越小。距离的计算方法有多种，最常用的是通过计算每个类的中心来完成。基于距离的分类算法的一般性描述算法 4-1通过对每个元组和各个类的中心来比较，从而可以找出他的最近的类中心，得到确定的类别标记。基于距离的分类方法的直观解释 K-近邻分类算法 K-近邻分类算法（K Nearest Neighbors，简称KNN）通过计算每个训练数据到待分类元组的距离，取和待分类元组距离最近的K个训练数据，K个数据中哪个类别的训练数据占多数，则待分类元组就属于哪个类别。 K-means算法：根据聚类中的均值进行聚类划分：输入：聚类个数k以及包含n个数据对象的数据库。输出：满足方差最小标准的k个聚类。处理流程：（1）从n个数据对象任意选择k个对象作为初始聚类中心。（2）循环流程（3）到（4），直到每个聚类不再发生变化为止。（3）根据每个聚类对象的均值（中心对象），计算每个对象与这些中心对象的距离，并根据最小距离重新对相应对象进行划分。（4）重新计算每个有变化聚类的均值（中心对象）。 k-均值算法标准均方误差：坐标表示5个点｛X1,X2,X3,X4,X5｝作为一个聚类分析的二维样本：X1＝（0,2），X2＝（0,0），X3＝（1.5,0），X4＝（5,0），X5＝（5,2）。假设要求的簇的数量k=2。对这5个点进行分类。 k-均值算法的性能分析：优点： K-均值算法是解决聚类问题的一种典型算法，这种算法简单、快速；对处理大型数据集，该算法是相对可伸缩的和高效的；算法尝试找出使平方误差函数值最小的k个划分。当结果簇是密集的，而簇与簇之间区别明显时，效果是较好的。 k-均值算法的性能分析：（续）缺点： K-均值算法只有在簇的平均值在被定义的情况下才能使用。要求用户事先必须拿出k，而且对初值不