- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
FUAT——模糊聚类分析工具
摘要:
众所周知,模糊聚类是一种软聚类方法并且主要以通过计算每个集群的隶属度的分段数据为基础。然而在调查不同集群之间的关系方面,当前的大多数模糊聚类模块打包在开放资源和商业产品中,都缺乏使用户能够更加深入和直观地探索模糊集群的能力。此外,在没有决策者或专家的情况下,在模糊聚类研究中确定集群的数量也非常困难。因此在这项研究中,一个被称为FUAT的桌面软件得到发展,它能够分析、探索并将从模糊c聚类算法(FCM)中分离出来模糊群集可视化。此外,为了获得并告知可能的自然集群数量,FUAT还配备了期望的最大化算法。
1、介绍
聚类是一种无人监督的,划分多元数据点集合成有意义的组织的分类方法,同组中的所有成员代表类似的特征而在不同群体之间的数据点彼此不同。有许多基于模糊概率和可能的方法和聚类算法,如k 均值聚类、c均值聚类、层次聚类。模糊c聚类算法(FCM)是使用最普遍的聚类算法之一。FCM结合c均值聚类方法与存在的模糊性数据处理,这种结合使它更强大,因为数据的模糊性在创建脆分区以一种不利的方式影响结果。一般来说,软聚类技术旨在消除这种情况,FCM是一种基于模糊集理论的软聚类方法(Zadeh,1965)。在聚类算法的实际应用中,必须解决的几个问题,包括确定集群的数量和评价分区的质量。
在这项研究中,工具-FUAT(模糊聚类分析工具)提出了探索与FCM聚类创建的集群。FUAT发展的原因来自FCM的报道困难。首先,FCM要求集群数量作为输入参数,但对实际的决策者来说知道这个数字是很困难的。因为,预测数据点的分布,从现实世界中可以获得,在空间中很难完成,有时甚至是不可能的。在FUAT,关于可能的集群号码,自然聚类给用户提出了一个建议。其次,初始集群对导致集群有很大的影响。然而,无论获得了集群的质心、演示数据与集群的数字还是隶属度都足以评估集群性能。因此,集群的大小和密度、饱和度和频率隶属度、集群之间的亲密度、集群之间的密度要求在集群参数、集群性能的评估上执行详细的分析。
模糊聚类的问题和关键点曾在文学中被议论,特别是这些研究的重点集中在有效性的主题索引。例如分配系数(PC)和分区(PE)是最基本的,简单而有效的指标来源于模糊分区的模糊成员值。此外,研究人员提出许多集群的有效指标包括模糊聚类成员值和信息结构(Zalik,2010),大多数有效指标采用密实度和分离的概念。密实度与集群亲密度相关,分离与集群彼此间的隔离相关。换句话说,模糊聚类有效性指数试图反映克服这些指定困难的比率。事实上,有效性指数具有必要性,因为黑盒模糊聚类算法的使用,并且他们依赖初始参数和结构。集群在通过模糊聚类算法之前,有效性检查通过使用已选择的有效性指数数值完成。
事实上FUAT有一种互补方法去解释有效性指数。它是一种工具,显示导致集群的许多特征(密实度、分离、重叠、病例分布和密度)。换句话说,通过FUAT,我们试图为用户将基于FCM的集群从黑盒有效转换到透明的盒子中。特别是,我们专注于创造单独集群分析的能力,帮助用户一起克服在FCM的使用中作为一个黑盒的困难。在FUAT中,FCM的所有特征的设计都要保持和不同的数据类型的支持(整数、实数)。
2、理论
在这项研究中,两个重要的聚类方案运用在一起。FCM和期望最大化(EM)基于聚类方法,因为他们的软聚类的行为得到使用,。下面将详细介绍它们的主要特征。
2.1、模糊c聚类
广义模糊c聚类算法(FCM)(Bezdek,1981)是无人监督模糊聚类算法中使用最为普遍的算法之一,广泛应用于模式识别、图像识别、基因分类等。可以理解FCM的名字,它是以扎德模糊集理论和应用c聚类算法为基础的。通过FCM,模糊集群构成,在FCM中分区的数据点到c集群之间的距离最小化的数据点,模糊聚类质心迭代。
2.2、期望最大化
EM(期望最大化)算法是一种无人监督的聚类方法基于发现适当的特定参数并定义数据的统计模型。在这个过程中,它的使用模型在这个过程称为混合模型查看数据作为一组病例通过使用不同的概率分布和在混合模型中数量的统计分布,并且每个代表一个集群,此外,如前所述(Tanetal ,2005),每个分布的参数提供相应集群的描述。
因此,基于EM聚类分割方法利用最大似然的概念。另一方面,类似于模糊聚类,它拥有软分割的特点因为一个点作为成员被不止一个集群以一定的概率的包括。由于这些事实和让用户知道可能真实的集群数量数据,EM聚类模式包括于FUAT。关于基于聚类的EM,更详细的解释可以被发现。
3、组件使用
在这项研究的软件开发中,各种组件是利用。他们下面列出:
3.1、R
在这项研究中,R(http:),一个著名的统计计算程序,采用EM算法使用。据报道,R涉及许多的数据统计技术,预测模和数据可视化,开放资源
文档评论(0)