数据挖掘算法介绍.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘算法介绍要点

数据挖掘算法介绍 ——张艺馨 2015/5/11 数据挖掘十大经典算法 K-MEANS C4.5 SVM EM Knn 贝叶斯 CART Adaboost Pagerank Apriori 聚类算法 层次聚类 K-means聚类 基于密度的聚类(DBSCAN) 模糊聚类(FCM) 两步聚类 Kohonen网络聚类 平衡数据——SMOTE算法 分类算法 KNN算法 决策树(C5.0,CART) 人工神经网络 随机森林 支持向量机(SVM) 基于密度的聚类 DBSCAN——基于高密度连通区域的聚类 OPTICS——通过点排序识别聚类结构 DENCLUE——基于密度分布函数的聚类 DBSCAN聚类 DBSCAN聚类认为,在整个样本空间中,目标类簇是由一群稠密样本点构成,这些稠密样本点被低密度区域(噪声)分割,而算法的目的就是要过滤低密度区域,发现稠密样本点。 DBSCAN是一种基于高密度联通区域的聚类算法,它将类簇定义为高密度相连点的最大集合。它本身对噪声不敏感,并且能发现任意形状的类簇。 DBSCAN特点 发现任意形状的聚类 处理噪音 一遍扫描 需要密度参数作为终止条件 基本概念 (1)E邻域:给定对象半径为E内的区域称为该对象的E邻域 (2)核对象:如果一个对象E邻域内的样本点数大于等于事先给定的最小样本点数MinPts,则称该对象为核对象 (3)直接密度可达:给定一个对象集合D,如果p在q的E邻域内,而q是一个核心对象,则称对象p从对象q出发时是直接密度可达。 基本概念 (4)密度可达:如果存在一个对象链 对于 是从 关于Eps和MinPts直接密度可达的,则对象p是从对象q关于Eps和MinPts密度可达的(density-reachable)。 (5)密度相连:如果存在对象O∈D,使对象p和q都是从O关于Eps和MinPts密度可达的,那么对象p到q是关于Eps和MinPts密度相连的 算法 (1)对数据集中的任一点p找到它的所有直接密度可达,标记p为核心点或边缘点或噪声点 (2)重复上述步骤,标记出所有点。 (3)聚类:剔除噪声点 ①依据密度可达或密度相连,将距离小于eps的核心点连接成一个类 ②将所有边缘点依次分派到相应核心点的类中 两步聚类 两步聚类:Chiu,2001年在BIRCH(Balanced Iterative Reducing and Clustering using Hierarchies)算法基础上提出的一种改进算法。 特点: 算法尤其适合于大型数据集的聚类研究 通过两步实现数据聚类 同时处理数值型聚类变量和分类型聚类变量 根据一定准则确定聚类数目 诊断样本中的离群点和噪声数据 数值型——欧式距离 数值型+分类型——对数似然距离 两步聚类——预聚类 两步聚类——预聚类 预聚类过程:建立CF树 (1)视所有数据为大类,统计量存在根结点中 (2)读入一个样本点,从CF树的根结点开始,利用结点的 统计量,计算数据与中间结点的对数似然距离。沿对数 似然距离最小的中间结点依次向下选择路径直到叶结点 (3)计算与子树中所有叶结点(子类)的对数似然距离, 找到距离最近的叶结点 两步聚类——预聚类 预聚类过程 (1)如果最近距离小于一定阈值,则该数据被相应的叶结 点“吸收”;否则,该数据将“开辟”一个新的叶结点。 重新计算叶结点和相应所有父结点的汇总统计量 (2)叶结点足够大时应再分裂成两个叶结点 (3)叶结点个数达到允许的最大聚类数目时,应适当增加 阈值重新建树,以得到一棵较小的CF树 (4)重复上述过程,直到所有数据均被分配到某个叶结点 (子类)为止 两步聚类——聚类 (1)聚类过程:分析对象是预聚类所形成的稠密区域 (2)方法:层次聚类法 (3)逐步将较多的小类合并为较少的大类,再将较少的大类合并成更少的更大类,最终将更大类的合并成一个大类,是一个类不断“凝聚”的过程 两步聚类——聚类数目的确定 两步聚类——聚类数目的确定 模糊聚类——FCM FCM与HCM的主要区别在于FCM用模糊划分,使得每个给定数据点用值在0,1间的隶属度来确定其属于各个组的程度。 与引入模糊划分相适应,隶属矩阵U允许有取值在(0,1)间的元素,满足 对所有输入参量求导,使式(2)达到最小。 得到解为: FCM算法实现 Kohonen网络聚类——概述

文档评论(0)

dajuhyy + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档