模糊C均值聚类算法及实现.docVIP

下载本文档

12
0
约4.97千字
约 7页
2019-01-03 发布于安徽
举报
版权申诉

模糊C均值聚类算法及实现.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

WORD格式整理专业资料值得拥有模糊C均值聚类算法及实现摘要：模糊聚类是一种重要数据分析和建模的无监督方法。本文对模糊聚类进行了概述，从理论和实验方面研究了模糊c均值聚类算法，并对该算法的优点及存在的问题进行了分析。该算法设计简单，应用范围广，但仍存在容易陷入局部极值点等问题，还需要进一步研究。关键词：模糊c均值算法；模糊聚类；聚类分析 Fuzzy c-Means Clustering Algorithm and Implementation Abstract: Fuzzy clustering is a powerful unsupervised method for the analysis of data and construction of models.This paper presents an overview of fuzzy clustering and do some study of fuzzy c-means clustering algorithm in terms of theory and experiment.This algorithm is simple in design,can be widely used,but there are still some problems in it,and therefore,it is necessary to be studied further. Key words: fuzzy c-Mean algorithm；fuzzy clustering；clustering analysis 1 引言 20世纪90年代以来，随着信息技术和数据库技术的迅猛发展，人们可以非常方便地获取和存储大量的数据。但是，面对大规模的数据，传统的数据分析工具只能进行一些表层的处理，比如查询、统计等，而不能获得数据之间的内在关系和隐含的信息。为了摆脱“数据丰富，知识贫乏”的困境，人们迫切需要一种能够智能地、自动地把数据转换成有用信息和知识的技术和工具，这种对强有力数据分析工具的迫切需求使得数据挖掘技术应运而生。将物理或抽象对象的集合分组成由类似的对象组成的多个类的过程称为聚类。由聚类所生成的簇是一组数据对象的集合，这些对象与同一个簇中的对象彼此相似，与其它簇中的对象相异。聚类是一种重要的数据分析技术，搜索并且识别一个有限的种类集合或簇集合，进而描述数据。聚类分析作为统计学的一个分支，己经被广泛研究了许多年。而且，聚类分析也已经广泛地应用到诸多领域中，包括数据分析、模式识别、图像处理以及市场研究[1]。通过聚类，人们能够识别密集的和稀疏的区域，因而发现全局的分布模式，以及数据属性之间的有趣的相互关系。在商务上，聚类能帮助市场分析人员从客户基本信息库中发现不同的客户群，并且用购买模式来刻画不同的客户群的特征。在生物学上，聚类能用于推导植物和动物的分类，对基因进行分类，获得对种群中固有结构的认识。聚类在地球观测数据库中相似地区的确定，汽车保险单持有者的分组，及根据房屋的类型、价值和地理位置对一个城市中房屋的分组上也可以发挥作用。聚类也能用于对Web上的文档进行分类，以发现信息。基于层次的聚类算法文献中最早出现的Single-Linkage层次聚类算法是1957年在Lloyd的文章中最早出现的，之后MacQueen独立提出了经典的模糊C均值聚类算法，FCM算法中模糊划分的概念最早起源于Ruspini的文章中，但关于FCM的算法的详细的分析与改进则是由Dunn和Bezdek完成的。聚类分析是多元统计分析的一种，也是非监督模式识别的一个重要分支，在模式分类、图像处理和模糊规则处理等众多领域中获得最广泛的应用。它把一个没有类别标记的样本集按某种准则划分为若干个子集(类) ，使相似的样本尽可能的归为一类，而将不相似的样本尽量划分到不同的类中。硬聚类把每个待辨识的对象严格地划分到某类中，具有非此即彼的性质，模糊聚类由于能够描述样本类属的中介性，能够客观地反映现实世界，已逐渐成为聚类分析的主流 [2 - 3 ] 。在众多的模糊聚类算法中，模糊c均值聚类算法(FCM)应用最为广泛。它按照某种判别准则，将数据的聚类转化为一个非线性优化问题，并通过迭代来进行求解，目前已成为非监督模式识别的一个重要分支。数据挖掘中的聚类分析主要集中在针对海量数据的有一效和实用的聚类方法研究，聚类方法的可伸缩性，高维聚类分析，分类属性数据聚类和具有混合属性数据的聚类，非距离模糊聚类等。因此，数据挖掘对聚类分析有其特殊的要求;可伸缩性，能够处理不同类型属性，强抗噪性，高维性，对输入顺序不敏感性，可解释性和可用性等。本文正是在此背景下对数据挖掘中