基于多属性模糊C均值聚类属性约简算法.docVIP

下载本文档

16
0
约8.2千字
约 15页
2018-08-29 发布于福建
举报
版权申诉

基于多属性模糊C均值聚类属性约简算法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于多属性模糊C均值聚类属性约简算法

基于多属性模糊C均值聚类属性约简算法　　摘要：模糊C均值聚类算法在处理高维数据集时，存在计算复杂度高，算法泛化能力差，计算精度低等问题。考虑到特征属性对聚类的贡献程度的差异，在多属性模糊C均值聚类的思想上，提出一种基于属性重要性的约简算法。为验证有效性，在UCI数据集上，将新算法与因子分析法和粗糙集理论约简方法进行比较分析。实验结果表明，该方法具有更好的泛用性，在平均标准差大或类间中心距离较远的数据集上具有更好的性能。　　关键词：数据挖掘；模糊C均值聚类；属性约简；聚类效果　　中图分类号： TN911.1?34； TP391 文献标识码： A 文章编号： 1004?373X（2017）21?0112?05 　　Attribute reduction algorithm based on multiattribute fuzzy C?means clustering 　　LI Shijin， LI Qian， XU Guiqiong 　　（School of Management， Shanghai University， Shanghai 200444， China）　　Abstract： The fuzzy C?means clustering algorithm used to process the high?dimensional datasets has the problems of high computational complexity， poor algorithm generalization ability and low calculation accuracy. Considering the difference of feature attribute for clustering contribution， a new reduction algorithm based on attribute importance is proposed on the basis of the thought of multiattribute fuzzy C?means clustering. In order to verify its validity， the comparative analysis was performed in UCI datasets for the proposed algorithm， factor analysis method and reduction method based on rough set theory. The experimental results show this method has wider application range， and better performance on the datasets whose average standard deviation is large or the inter?class centre distance is far. 　　Keywords： data mining； fuzzy C?means clustering； attribute reduction； clustering effect 　　0 引言　　随着大数据时代的到来，各行各业中都累计了海量和高维度的数据资料。数据挖掘技术可以从这些大量的数据中挖掘出有价值的信息[1]，而这些高维度的数据资料却对目前大多数数据挖掘算法的效果造成了严重的阻碍，这种阻碍被称之为 “维数灾难”[2]。数据降维，又称属性约简，是一种有效解决维数灾难的方法，它将原有高维空间上的点映射到低维空间，在不降低精度的前提下剔除冗余属性对挖掘所造成的误差，提高挖掘任务的效率与精度。常见的方法有主成分分析（PCA）、因子分析、线性判别分析（LDA）、局部线性嵌入算法（LLE）和粗糙集理论等[3?4]。因子分析可以看作是 PCA 的进一步推广，它从研究变量内部依赖关系出发，把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法，能在损失很小信息的前提下减小维数。但是在使用前需要进行KMO统计量检验，当KMO小于0.6时，数据集不适合通过因子分析进行属性重要性排序[5]。粗糙集理论最早由Pawlak提出，是一种处理不确定信息的数据分析方法[6]。它根据已有的信息或知识对论域进行划分，在保证知识库的分类能力不变的条件下，剔除冗余与不相关的特征。然而，大多数据集具有连续属性值，若通过离散化方法来构造等价类，往往无法得到较合理的划分[7]。另外，粗糙集是一种监督的属性约简算法，在决策属性缺失的情况下