- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
[工学]数据挖掘原理与算法04
Data Mining: Concepts and Techniques 第三章 分类方法 内容提要 分类的基本概念与步骤 基于距离的分类算法 决策树分类方法 贝叶斯分类 规则归纳 与分类有关的问题 分类是数据挖掘中重要的任务 分类的目的是学会一个分类器(分类函数或模型),该分类器能把待分类的数据映射到给定的类别中。 分类可用于预测。从利用历史数据纪录中自动推导出对给定数据的推广描述,从而能对未来数据进行类预测。 分类具有广泛的应用,例如医疗诊断、信用卡系统的信用分级、图像模式识别等。 分类器的构造依据的方法很广泛: 统计方法:包括贝叶斯法和非参数法等。 机器学习方法:包括决策树法和规则归纳法。 神经网络方法。 其他,如粗糙集等(在前面绪论中也介绍了相关的情况)。 分类方法的类型 从使用的主要技术上看,可以把分类方法归结为四种类型: 基于距离的分类方法 决策树分类方法 贝叶斯分类方法 规则归纳方法。 本章将择选一些有代表性的方法和算法来介绍这四类分类方法。 分类问题的描述 定义4-1 给定一个数据库 D={t1,t2,…,tn}和一组类 C={C1,…,Cm},分类问题是去确定一个映射 f: D?C,使得每个元组ti被分配到一个类中。一个类Cj 包含映射到该类中的所有元组,即Cj = {ti | f(ti) = Cj,1 ≤ i ≤ n, 而且ti ?D}。 例如,把学生的百分制分数分成A、B、C、D、F五类,就是一个分类问题: D是包含百分制分数在内的学生信息, C={A、B、C、D、F}。 解决分类问题的关键是构造一个合适的分类器:从数据库到一组类别集的映射。一般地,这些类是被预先定义的、非交叠的。 数据分类的两个步骤 1.建立一个模型,描述预定的数据类集或概念集 数据元组也称作样本、实例或对象。 为建立模型而被分析的数据元组形成训练数据集。 训练数据集中的单个元组称作训练样本,由于提供了每个训练样本的类标号,因此也称作有指导的学习。 通过分析训练数据集来构造分类模型,可用分类规则、决策树或数学公式等形式提供。 2.使用模型进行分类 首先评估模型(分类法)的预测准确率。 如果认为模型的准确率可以接受,就可以用它对类标号未知的数据元组或对象进行分类。 基于距离的分类算法的思路 定义4-2 给定一个数据库 D={t1,t2,…,tn}和一组类C={C1,…,Cm}。假定每个元组包括一些数值型的属性值:ti={ti1,ti2,…,tik},每个类也包含数值性属性值:Cj={Cj1,Cj2,…,Cjk},则分类问题是要分配每个ti到满足如下条件的类Cj: sim(ti,Cj)=sim(ti,Cl) ,?Cl∈C,Cl≠Cj, 其中sim(ti,Cj)被称为相似性。 在实际的计算中往往用距离来表征,距离越近,相似性越大,距离越远,相似性越小。 距离的计算方法有多种,最常用的是通过计算每个类的中心来完成。 基于距离的分类算法的一般性描述 算法 4-1通过对每个元组和各个类的中心来比较,从而可以找出他的最近的类中心,得到确定的类别标记。 基于距离的分类方法的直观解释 K-近邻分类算法 K-近邻分类算法(K Nearest Neighbors,简称KNN)通过计算每个训练数据到待分类元组的距离,取和待分类元组距离最近的K个训练数据,K个数据中哪个类别的训练数据占多数,则待分类元组就属于哪个类别。 K-means算法: 根据聚类中的均值进行聚类划分: 输入:聚类个数k以及包含n个数据对象的数据库。 输出:满足方差最小标准的k个聚类。 处理流程: (1)从n个数据对象任意选择k个对象作为初始聚类中心。 (2)循环流程(3)到(4),直到每个聚类不再发生变化为止。 (3)根据每个聚类对象的均值(中心对象),计算每个对象与这些中心对象的距离,并根据最小距离重新对相应对象进行划分。 (4)重新计算每个有变化聚类的均值(中心对象)。 k-均值算法标准 均方误差: 坐标表示5个点{X1,X2,X3,X4,X5}作为一个聚类分析的二维样本:X1=(0,2),X2=(0,0),X3=(1.5,0),X4=(5,0),X5=(5,2)。假设要求的簇的数量k=2。 对这5个点进行分类。 k-均值算法的性能分析: 优点: K-均值算法是解决聚类问题的一种典型算法,这种算法简单、快速; 对处理大型数据集,该算法是相对可伸缩的和高效的; 算法尝试找出使平方误差函数值最小的k个划分。当结果簇是密集的,而簇与簇之间区别明显时,效果是较好的。 k-均值算法的性能分析:(续) 缺点: K-均值算法只有在簇的平均值在被定义的情况下才能使用。 要求用户事先必须拿出k,而且对初值不
文档评论(0)