数据挖掘算法介绍.pptVIP

下载本文档

9
0
约6.3千字
约 53页
2017-06-01 发布于湖北
举报
版权申诉

数据挖掘算法介绍.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据挖掘算法介绍要点

数据挖掘算法介绍 ——张艺馨 2015/5/11 数据挖掘十大经典算法 K-MEANS C4.5 SVM EM Knn 贝叶斯 CART Adaboost Pagerank Apriori 聚类算法层次聚类 K-means聚类基于密度的聚类(DBSCAN) 模糊聚类（FCM）两步聚类 Kohonen网络聚类平衡数据——SMOTE算法分类算法 KNN算法决策树（C5.0,CART）人工神经网络随机森林支持向量机（SVM）基于密度的聚类 DBSCAN——基于高密度连通区域的聚类 OPTICS——通过点排序识别聚类结构 DENCLUE——基于密度分布函数的聚类 DBSCAN聚类 DBSCAN聚类认为，在整个样本空间中，目标类簇是由一群稠密样本点构成，这些稠密样本点被低密度区域（噪声）分割，而算法的目的就是要过滤低密度区域，发现稠密样本点。 DBSCAN是一种基于高密度联通区域的聚类算法，它将类簇定义为高密度相连点的最大集合。它本身对噪声不敏感，并且能发现任意形状的类簇。 DBSCAN特点发现任意形状的聚类处理噪音一遍扫描需要密度参数作为终止条件基本概念（1）E邻域：给定对象半径为E内的区域称为该对象的E邻域（2）核对象：如果一个对象E邻域内的样本点数大于等于事先给定的最小样本点数MinPts，则称该对象为核对象（3）直接密度可达：给定一个对象集合D，如果p在q的E邻域内，而q是一个核心对象，则称对象p从对象q出发时是直接密度可达。基本概念（4）密度可达：如果存在一个对象链对于是从关于Eps和MinPts直接密度可达的，则对象p是从对象q关于Eps和MinPts密度可达的(density-reachable)。（5）密度相连：如果存在对象O∈D，使对象p和q都是从O关于Eps和MinPts密度可达的，那么对象p到q是关于Eps和MinPts密度相连的算法（1）对数据集中的任一点p找到它的所有直接密度可达，标记p为核心点或边缘点或噪声点（2）重复上述步骤，标记出所有点。（3）聚类：剔除噪声点 ①依据密度可达或密度相连，将距离小于eps的核心点连接成一个类 ②将所有边缘点依次分派到相应核心点的类中两步聚类两步聚类：Chiu，2001年在BIRCH（Balanced Iterative Reducing and Clustering using Hierarchies）算法基础上提出的一种改进算法。特点：算法尤其适合于大型数据集的聚类研究通过两步实现数据聚类同时处理数值型聚类变量和分类型聚类变量根据一定准则确定聚类数目诊断样本中的离群点和噪声数据数值型——欧式距离数值型+分类型——对数似然距离两步聚类——预聚类两步聚类——预聚类预聚类过程:建立CF树 (1)视所有数据为大类，统计量存在根结点中 (2)读入一个样本点，从CF树的根结点开始，利用结点的统计量，计算数据与中间结点的对数似然距离。沿对数似然距离最小的中间结点依次向下选择路径直到叶结点 (3)计算与子树中所有叶结点（子类）的对数似然距离，找到距离最近的叶结点两步聚类——预聚类预聚类过程 (1)如果最近距离小于一定阈值，则该数据被相应的叶结点“吸收”；否则，该数据将“开辟”一个新的叶结点。重新计算叶结点和相应所有父结点的汇总统计量 (2)叶结点足够大时应再分裂成两个叶结点 (3)叶结点个数达到允许的最大聚类数目时，应适当增加阈值重新建树，以得到一棵较小的CF树 (4)重复上述过程，直到所有数据均被分配到某个叶结点（子类）为止两步聚类——聚类 (1)聚类过程：分析对象是预聚类所形成的稠密区域 (2)方法：层次聚类法 (3)逐步将较多的小类合并为较少的大类，再将较少的大类合并成更少的更大类，最终将更大类的合并成一个大类，是一个类不断“凝聚”的过程两步聚类——聚类数目的确定两步聚类——聚类数目的确定模糊聚类——FCM FCM与HCM的主要区别在于FCM用模糊划分，使得每个给定数据点用值在0，1间的隶属度来确定其属于各个组的程度。与引入模糊划分相适应，隶属矩阵U允许有取值在(0,1)间的元素，满足对所有输入参量求导，使式(2)达到最小。得到解为： FCM算法实现 Kohonen网络聚类——概述