数据挖掘与知识发现(8--模糊聚类).docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 装 ┊ ┊ ┊ ┊ ┊ 订 ┊ ┊ ┊ ┊ ┊ 线 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ PAGE PAGE 1 第8章 模糊聚类 8.1 概 述 聚类是人类一项最基本的认识活动,如“物以类聚,人以群分”。所谓聚类就是按照事物的某些属性,把事物聚集成类,使类间的相似性尽量小,类内的相似性尽量大。其数学描述为 设给定数据集合,其中为数据对象,根据数据对象间的相似程度将数据集合分成组,并满足: 则该过程称为聚类,称为簇。 聚类的基本方法经常是定义两个对象之间的距离,也可采用不依赖于距离的方法:首先定义一个优化目标,再优化得到某个局部最小值。 聚类与分类区别:聚类是一个无监督的学习过程,属观察学习;而分类是有监督的学习过程,属示例学习。它们的根本区别在于,分类时需要事先知道分类所依据的属性值,而聚类是要找到这个分类的属性值。一般属性值有两类:数值属性和符号属性。关于数值属性聚类方法很多,而对符号属性聚类方法较少,常是将其转化为数值后再处理。 聚类分析目前已广泛应用于诸多领域,包括模式识别、数据分析、图像处理、自动控制以及市场研究等。通过聚类,人们能够识别密集的和稀疏的区域,因而发现全局的分布模式,以及数据属性之间的有趣的相互关系。 8.2 聚类方法的分类 聚类分析方法很多,通常是针对数据库中的记录,根据一定的分类规则,合理地划分记录集合,确定每个记录所在类别(如,-平均算法、-中心点算法、基于凝聚的层次聚类和基于分裂的层次聚类等)。一般来说,对于相同的数据集,若采用不同的聚类方法,可能有不同的划分结果。 (1)按聚类的标准分,有统计聚类方法和概念聚类方法 统计聚类方法:基于相似性测量。包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、重叠聚类和模糊聚类等。这种聚类方法是一种基于全局比较的聚类,它需要考察所有个体才能决定类的划分。因此,它要求所有的数据必须预先给定,而不能动态增加新的数据对象。 概念聚类方法:基于对象具有的概念。这里的距离不再是统计方法中的几何距离,而是根据概念的描述来确定的。典型的概念聚类或形成方法有:COBWEB、OLOC和基于列联表的方法。 (2)按聚类的对象分,有数值聚类方法和符号值聚类方法 数据聚类方法:所分析的数据的属性为数值数据,因此可对所处理的数据直接比较大小; 符号值聚类方法:所分析的数据的属性为符号数据,因此对所处理的数据不能直接比较大小。 (3)按聚类尺寸分,有基于距离聚类、基于密度聚类和基于连续的聚类 基于距离的聚类:根据数据之间的距离进行聚类。这种算法对于噪声数据和孤立点数据比较敏感; 基于密度的聚类:该方法认为簇是具有相同密度的连通区域。因此,密度聚类需要扫描整个数据集,将数据空间划分为不同的小方格,并使用小方格的并来近似表示簇。该方法有可能不够精确,但该方法对于噪声数据和孤立点不敏感。该方法也可利用空间索引结构,通过计算超球区内的密度进行聚类,但该方法因为要维护复杂的索引结构,故对于海量数据存在效率问题; 基于连续的聚类:将聚类对象映射为图模型或超图模型,然后根据边或者超边寻找连通的结点集合。 8.3 常用的聚类算法 聚类问题本质上是一个优化问题,即通过一种迭代运算使得系统的目标函数达到一个极小值。该目标函数为划分的评价函数。通常采用距离作为划分的评价标准,对数值属性主要采用欧氏距离,而对符号属性则通常采用Hamming距离。 基于划分的聚类算法通过优化一个评价函数把数据集划分为个部分。当采用聚类内的距离的平方作为评价函数时,聚类内的所有点向聚类中心汇集,因此采用基于距离的划分评价函数方法得到的聚类是球形的。一般,不同的评价函数会优先选择不同的聚类结构。 (1)-平均方法 -平均法是一种常用的基于划分的聚类方法。它根据最终分类的个数随机地选取个初始聚类中心,不断地迭代,直至达到目标函数的最小值,即得到最终的聚类结果为止。其中,目标函数通常采用平方误差准则,即 这里,为聚类对象;为类的各聚类对象(样本)的平均值。即 该方法在每一次迭代中,要计算每一个点和各聚类中心的距离,并将距离最近的聚类作为该点所属的类。所以-平均法的算法复杂度为,其中,--聚类数;--结点数;--迭代次数。 平均法是解决聚类问题的一种经典算法,是一种爬山式搜索算法。 优点:算法简洁、快速。 缺点:对初值敏感,且易陷入局部最优。 (2)-中心点方法 与平均法的算法过程相似。唯一不同之处就是聚类中心的计算和表达。-中心点法是用类中最靠近中心的一个样本来代表该类。-中心点法最初随机选择个中心点,然后反复地试图找出更好的中心点。 -中心点法的核心是中心

文档评论(0)

liuyanhua95 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档