聚类算法研究.docVIP

下载本文档

7
0
约4.53千字
约 8页
2019-06-15 发布于北京
举报
版权申诉

聚类算法研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

PAGE PAGE 1 聚类算法研究　　摘要：聚类分析在数据挖掘领域中是一个非常重要的研究课题，该文阐述了聚类算法的基本原理和性能要求，并依据算法思想的不同把聚类算法分为五类，详细介绍了每一类的算法思想、优缺点及典型算法，有利于用户对聚类算法的选择和研究者对聚类算法的改进研究，最后探讨了聚类算法今后的发展趋势。　　关键词：数据挖掘；聚类；聚类算法　　中图分类号：TP391.1文献标识码：A文章编号：1007-9599（2012）21-0000-02 　　1引言　　信息科学技术的高速发展使得各行各业中人们面临的数据越来越多，聚类分析能够帮助人们从海量的数据中提取能够为人们所利用的信息和知识，目前聚类分析已经被广泛地运用于计算机的图像处理、经济学的市场分析、分子生物学的基因监测、web技术领域的信息检索等各个领域并取得一定成就，因此聚类分析已成为数据挖掘研究领域中很热门的研究课题之一。　　2聚类基本原理及性能要求　　聚类简单来讲就是依据数据其自身的特征将数据集进行划分成若干类的过程，划分的结果是相同类内数据相似度尽可能大、不同类间数据相似度尽可能小，从而发现数据集的内在结构。　　聚类在不同的应用领域有不同的特殊要求，聚类算法的典型性能要求有一下几个方面：　　（1）伸缩性；　　（2）兼容性；　　（3）有效处理噪声数据；　　（4）能处理基于约束的聚类；　　（5）可解释性和可用性。　　3聚类算法的分类研究　　随着人们对聚类算法的深入研究和应用实践，很多聚类算法被先后提出不同的聚类算法是基于不同的思想而开发出的，而且具有不同的优缺点，针对各种聚类算法的研究现状与构造思想，可以把目前的聚类算法大致如下几类：基于划分的方法（partitioningmethod），基于层次的方法（hierachicalmethod），基于密度的方法（density-basedmethod），基于网格的方法（grid-basedmethod）和基于模型的方法（model-basedmethod）。　　3.1划分方法　　基于划分方法的聚类算法的基本思想是：给出要进行聚类的数据集（假设含有n个数据）和要生成的类的个数（假设为K，k=n），首先把数据集按照一定的规则构建成k个初始划分，一个划分就代表一个聚类，每一个类中应至少含有一个数据对象，并且同一个数据对象只能隶属于一个类。然后利用迭代重定位技术，不断移动初始类内的数据对象来改变划分内容，每次重定位都会使得同一类内的数据对象相似度有所提高，这种迭代重定位操作直到各类划分中的数据满足一定的准则停止。操作的结果是同一类内的数据具有很高的相似度，而不同类内数据相似度尽可能低。基于划分方法的典型聚类算法有：K-means、K-medoids、PAM等算法。K-means算法是由MacQueen于1967年首次提出的，K-means算法是在平均值被定义的情况下才能使用的，因此该算法突出的一个缺点就是易受孤立点的影响。K-medoids算法是在K-means算法基础上进行改进的聚类算法，选用聚类中位置最中心的数据对象作为代表点，所以K-medoids算法不像K-means算法那样易受孤立点或极端数据的影响，而且它能处理任意类型的数据，收敛速度比K-means算法更快。基于划分的聚类算法具有收敛速度快，适合发现球状类的优点。不足之处是它要求用户预先给出聚类个数k，而用户输入的K值是一个估计值，不一定符合实际中的聚类个数，并且不能发现任意形状的聚类，另外聚类结果受噪声数据和初始中心点的选择的影响很大。PAM算法中心点的选择是这样的，首先把数据对象两两成对，然后通过对所有的数据对象对进行分析后从每个数据对中选择一个数据对象作为中心点，综合衡量各种数据对的组合，估算出聚类结果的好坏，最终选择出较优的数据对象作为聚类中心点。　　3.2层次方法　　层次聚类方法是把给定的数据对象集合进行逐层的分解，每次迭代分解过程中，类的个数及类内的数据成员都会发生变化。层次聚类算法又可分成凝聚聚类方法和分裂聚类方法，凝聚聚类方法的基本思想是：首先每个数据单独成类，然后把相距最近的两个聚类合并，重复这个过程，这样就会逐步形成越来越大的类，直到所有的数据对象都属于同一个类或符合某一设定的结束条件。分裂聚类算法与凝聚型算法相反，首先将所有数据对象存放于一个类中，然后逐渐细分为越来越小的类，直到所有数据对象单独成类或符合某个设定的结束条件。典型的层次聚类算法有BIRCH、CURE、ROCK等算法。BIRCH算法是一种综合的层次聚类方法，其思想是首先将所有的数据对象按照一定的标准化成很多小的子聚类，然后再在子类上利用其它合适的聚类算法进行聚类。BIRCH算法伸缩性好并且适用于动态聚类。但是BIRCH算法不适应于非球状的聚