数据挖掘与知识发现(8--模糊聚类).docVIP

下载本文档

3
0
约8.67千字
约 16页
2020-04-21 发布于江西
举报
版权申诉

数据挖掘与知识发现(8--模糊聚类).doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 装 ┊ ┊ ┊ ┊ ┊ 订 ┊ ┊ ┊ ┊ ┊ 线 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ PAGE PAGE 1 第8章模糊聚类 8.1 概述聚类是人类一项最基本的认识活动，如“物以类聚，人以群分”。所谓聚类就是按照事物的某些属性，把事物聚集成类，使类间的相似性尽量小，类内的相似性尽量大。其数学描述为设给定数据集合，其中为数据对象，根据数据对象间的相似程度将数据集合分成组，并满足：则该过程称为聚类，称为簇。聚类的基本方法经常是定义两个对象之间的距离，也可采用不依赖于距离的方法：首先定义一个优化目标，再优化得到某个局部最小值。聚类与分类区别：聚类是一个无监督的学习过程，属观察学习；而分类是有监督的学习过程，属示例学习。它们的根本区别在于，分类时需要事先知道分类所依据的属性值，而聚类是要找到这个分类的属性值。一般属性值有两类：数值属性和符号属性。关于数值属性聚类方法很多，而对符号属性聚类方法较少，常是将其转化为数值后再处理。聚类分析目前已广泛应用于诸多领域，包括模式识别、数据分析、图像处理、自动控制以及市场研究等。通过聚类，人们能够识别密集的和稀疏的区域，因而发现全局的分布模式，以及数据属性之间的有趣的相互关系。 8.2 聚类方法的分类聚类分析方法很多，通常是针对数据库中的记录，根据一定的分类规则，合理地划分记录集合，确定每个记录所在类别（如，-平均算法、-中心点算法、基于凝聚的层次聚类和基于分裂的层次聚类等）。一般来说，对于相同的数据集，若采用不同的聚类方法，可能有不同的划分结果。（1）按聚类的标准分，有统计聚类方法和概念聚类方法统计聚类方法：基于相似性测量。包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、重叠聚类和模糊聚类等。这种聚类方法是一种基于全局比较的聚类，它需要考察所有个体才能决定类的划分。因此，它要求所有的数据必须预先给定，而不能动态增加新的数据对象。概念聚类方法：基于对象具有的概念。这里的距离不再是统计方法中的几何距离，而是根据概念的描述来确定的。典型的概念聚类或形成方法有：COBWEB、OLOC和基于列联表的方法。（2）按聚类的对象分，有数值聚类方法和符号值聚类方法数据聚类方法：所分析的数据的属性为数值数据，因此可对所处理的数据直接比较大小；符号值聚类方法：所分析的数据的属性为符号数据，因此对所处理的数据不能直接比较大小。（3）按聚类尺寸分，有基于距离聚类、基于密度聚类和基于连续的聚类基于距离的聚类：根据数据之间的距离进行聚类。这种算法对于噪声数据和孤立点数据比较敏感；基于密度的聚类：该方法认为簇是具有相同密度的连通区域。因此，密度聚类需要扫描整个数据集，将数据空间划分为不同的小方格，并使用小方格的并来近似表示簇。该方法有可能不够精确，但该方法对于噪声数据和孤立点不敏感。该方法也可利用空间索引结构，通过计算超球区内的密度进行聚类，但该方法因为要维护复杂的索引结构，故对于海量数据存在效率问题；基于连续的聚类：将聚类对象映射为图模型或超图模型，然后根据边或者超边寻找连通的结点集合。 8.3 常用的聚类算法聚类问题本质上是一个优化问题，即通过一种迭代运算使得系统的目标函数达到一个极小值。该目标函数为划分的评价函数。通常采用距离作为划分的评价标准，对数值属性主要采用欧氏距离，而对符号属性则通常采用Hamming距离。基于划分的聚类算法通过优化一个评价函数把数据集划分为个部分。当采用聚类内的距离的平方作为评价函数时，聚类内的所有点向聚类中心汇集，因此采用基于距离的划分评价函数方法得到的聚类是球形的。一般，不同的评价函数会优先选择不同的聚类结构。（1）-平均方法 -平均法是一种常用的基于划分的聚类方法。它根据最终分类的个数随机地选取个初始聚类中心，不断地迭代，直至达到目标函数的最小值，即得到最终的聚类结果为止。其中，目标函数通常采用平方误差准则，即这里，为聚类对象；为类的各聚类对象（样本）的平均值。即该方法在每一次迭代中，要计算每一个点和各聚类中心的距离，并将距离最近的聚类作为该点所属的类。所以-平均法的算法复杂度为，其中，--聚类数；--结点数；--迭代次数。平均法是解决聚类问题的一种经典算法，是一种爬山式搜索算法。优点：算法简洁、快速。缺点：对初值敏感，且易陷入局部最优。（2）-中心点方法与平均法的算法过程相似。唯一不同之处就是聚类中心的计算和表达。-中心点法是用类中最靠近中心的一个样本来代表该类。-中心点法最初随机选择个中心点，然后反复地试图找出更好的中心点。 -中心点法的核心是中心