大数据分析和数据挖掘分类方法.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据分析与教据挖掘一分类方法 内农提要 分类的基本概念与步骤 ■基于距离的分类算法 决策树分类方法 贝叶斯分类 规则归纳 与分类有关的问题 018年12月5日星期 分类是数据挖掘中重要的任务 分类的目的是学会一个分类器(分类函数或模 型),该分类器能把待分类的数据肭射到给定的 类别中 分类可用于预测。从利用历史数据纪录中自动推 导出对给定数据的推广描述,从而能对未来数据 进行类预测。 ■分类具有广泛的应用,例如医疗诊断、信用卡糸 统的信用分级、图像模式识别等。 ■分类器的构造依据的方法很广泛 统计方法:包括贝叶斯法和非参数法等 机器学习方法:包括决策树法和规则归纳法 神经网络方法。 其他,如粗糙集等(在前面绪论中也介绍了相关的情 况)。 18年12月5日星期 分类方法的类 从使用的主要技术上看,可以把分类方法归结为 四种类型: 基于距离的分类方法 决策树分类方法 贝叶斯分类方法 规则归纳方法。 本章将择选一些有代表性的方法和算法来介绍这 四类分类方法。 18年12月5日星期 分类问题的描述 定义4-1给定一个数据库D={,t2,…,t和 组类C={C1, 分类问題是去确定一个映 射FDC,使得每个元组t被分配到一个类中。 个类G包合映射到该妻中的所有元组,即G= {(=G,1≤/≤门,而且∈D 例如,把学生的百分制分数分成A、B、C、D、F 五类,就是一个分类问题:D是包合百分制分数 在内的学生信息,C={A、B、C、D、F}。 解决分类问题的关键是构造一个合适的分类器: 从数据庠到一组类别集的映射。一般地,这些类 是被预先定义的、非交叠的。 18年12月5日星期 数据分类的两个步驟 建立一个棋型,描述预定的数据类纂或概念集 数据元组也称作样本、实例或对象。 ■为建立模型而被分析的数据元组形成训练数据集 ■训练数据集中的单个元组称作训练样本,由于提供了每 个训练样本的类标号,因此也称作有指导的学习。 ■通过分析训练数据集来构造分类模型,可用分类规则、 决策树或数学公式等形式提供 ■2、使用模型进行分粪 ■首先评估模型(分类法)的预测准确率。 ■如果认为模型的准确率可以接受,就可以用它对类标号 未知的数据元组或对象进行分类 18年12月5日星期 第三章分类方法 内农提要 分类的基本概念与步骤 基于距离的分类算法 决策树分类方法 贝叶斯分类 规则归纳 与分类有关的问题 018年12月5日星期 基于距离的分类算法的思路 定义42给定一个教据年D={,与,…,}和 組类C={G1,…,c}。假定每个元組包指一些数 值型的属性值:轩={t,,……,},每个类也包 含值性属性值:与={q,2,…},则分 奏问题是要分配每个到满足如下条件的粪G: sim(t1,C)sim(t,G),V∈C,G≠C, 其中sm(,Q被称为相似性。 在尖际的计算中往往用距离来表征,距高越近, 相似性趟大,距寫趟远,相似性越小。 距离的计算方法有多种,最常用的是通过计算每 个类的中心来完成。 18年12月5日星期 基于距离的分类算法的一般性描述 算法4-1基于距离的分类算法 输入:每个类的中心C1,…,Cm;待分类的元组t 输出:输出类别c。 (1)dst=∞;∥距离初始化 (2)FOR i: =1 to m DO (3) IF dis(, tdist THEN BEGIN (4) (5) dist+-dist(, t (6 END 算法41通过对每个元组和各个类的中心来比较, 从而可以找出他的最近的类中心,得到确定的类 别标记。 18年12月5日星期 8 基于距离的分类方法的直观解释 (a)类定义(b)待分类样例「(c)分类结果 18年12月5日星期 K-近邻分类算法 K-近邻分类算法( K Nearest Neighbors,简称KNN)通过 计算每个训练数据到待分类元组的距离,取和待分类元组 距离最近的K个训练数据,K个数据中哪个类别的训练数据 占多数,则待分类元组就属于哪个类别。 算法4-2K-近邻分类算法 输入:训练数据7:近邻数目K;待分类的元组t 输出:输出类别c。 (1)№= (2) FOR each d TDO BEGIN M≤ KTHEN (4)M=M{a (5 ELSE (6) IF 3 UEN such that simt, u)(simt, d THEN BEGIN N=MU №Mu{d END (10) END (11) c=class to which the most uEN 18年12月5日星期

文档评论(0)

151****1926 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档