一种分类数据聚类算法及其高效并行实现.PDFVIP

下载本文档

2
0
约2.92万字
约 8页
2017-08-13 发布于天津
举报

一种分类数据聚类算法及其高效并行实现.PDF

一种分类数据聚类算法及其高效并行实现

第３４卷第７期　　　计算机应用与软件Ｖｏｌ３４Ｎｏ．７２０１７年７月　　ＣｏｍｐｕｔｅｒＡｐｐｌｉｃａｔｉｏｎｓａｎｄＳｏｆｔｗａｒｅＪｕｌ．２０１７一种分类数据聚类算法及其高效并行实现丁祥武　谭　佳　王　梅（东华大学计算机科学技术学院　上海２０１６２０）摘　要　　针对大规模、高维、稀疏的分类数据聚类，ＣＬＯＰＥ算法相比于传统的聚类算法在聚类质量及运行速度上都有很大的提升。然而ＣＬＯＰＥ算法存在聚类的质量不稳定、没有区分每维属性对聚类的贡献度、需要预先指定排斥因子ｒ等问题。为此，提出基于随机顺序迭代和属性加权的分类数据聚类算法（ＲＷＣＬＯＰＥ）。该算法利用“洗牌”模型对原始数据进行随机排序以排除数据输入顺序对聚类质量的影响。同时，根据信息熵计算各个属性的权重，以区别每维属性对聚类的贡献度，极大地提升了数据聚类的质量。最后，在高效的集群平台Ｓｐａｒｋ上，实现了ＲＷＣＬＯＰＥ算法。在三个真实数据集上的实验结果表明：在数据集乱序后的份数相同时，ＲＷＣＬＯＰＥ算法比ｐＣＬＯＰＥ算法取得更好的聚类质量。对蘑菇数据集，当ＣＬＯＰＥ算法取得最优聚类结果时，ＲＷＣＬＯＰＥ比ＣＬＯＰＥ取得高６８％的收益值，比ｐＣＬＯＰＥ取得高２５％的收益值；针对大量数据，基于Ｓｐａｒｋ的ＲＷＣＬＯＰＥ算法比基于Ｈａｄｏｏｐ的ｐＣＬＯＰＥ算法执行时间更短；计算资源充足时，随机顺序的数据集份数越多，执行时间的提升越明显。关键词　　分类数据　ＣＬＯＰＥ　ｐＣＬＯＰＥ　ＲＷＣＬＯＰＥ　Ｓｐａｒｋ中图分类号　ＴＰ３１２　　　　文献标识码　Ａ　　　　ＤＯＩ：１０．３９６９／ｊ．ｉｓｓｎ．１０００３８６ｘ．２０１７．０７．０４６ＡＣＬＵＳＴＥＲＩＮＧＡＬＧＯＲＩＴＨＭＯＦＣＡＴＥＧＯＲＩＣＡＬＤＡＴＡＡＮＤＩＴＳＥＦＦＩＣＩＥＮＴＰＡＲＡＬＬＥＬＩＭＰＬＥＭＥＮＴＡＴＩＯＮＤｉｎｇＸｉａｎｇｗｕ　ＴａｎＪｉａ　ＷａｎｇＭｅｉ（ＣｏｌｌｅｇｅｏｆＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅａｎｄＴｅｃｈｎｏｌｏｇｙ，ＤｏｎｇｈｕａＵｎｉｖｅｒｓｉｔｙ，Ｓｈａｎｇｈａｉ２０１６２０，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ　　Ｆｏｒｌａｒｇｅｓｃａｌｅ，ｈｉｇｈｄｉｍｅｎｓｉｏｎａｌ，ｓｐａｒｓｅｃａｔｅｇｏｒｉｃａｌｄａｔａｃｌｕｓｔｅｒｉｎｇ，ｃｏｍｐａｒｅｄｗｉｔｈｔｈｅｔｒａｄｉｔｉｏｎａｌｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍ，ＣＬＯＰＥｈａｓａｇｒｅａｔｉｍｐｒｏｖｅｍｅｎｔｉｎｔｈｅｑｕａｌｉｔｙｏｆｃｌｕｓｔｅｒｉｎｇａｎｄｒｕｎｎｉｎｇｓｐｅｅｄ．Ｈｏｗｅｖｅｒ，ＣＬＯＰＥｈａｓｓｏｍｅｄｅｆｅｃｔｓｓｕｃｈａｓｃｌｕｓｔｅｒｉｎｇｑｕａｌｉｔｙｉｎｓｔａｂｉｌｉｔｙ，ｎｏｔｔｏｄｉｓｔｉｎｇｕｉｓｈｔｈｅａｔｔｒｉｂｕｔｅｃｌｕｓｔｅｒｉｎｇｃｏｎｔｒｉｂｕｔｉｏｎｂｅｔｗｅｅｎｅａｃｈｄｉｍｅｎｓｉｏｎ，ｎｅｅｄｔｏｓｐｅｃｉｆｙｒｅｊｅｃｔｉｏｎｆａｃｔｏｒｒｉｎａｄｖａｎｃｅ．Ｔｈｅｒｅｆｏｒｅ，ｔｈｉｓｐａｐｅｒｐｒｏｐｏｓｅｓａｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍｆｏｒｃａｔｅｇｏｒｉｃａｌｄａｔａｂａｓｅｄｏｎｒａｎｄｏｍｓｅｑｕｅｎｃｅｉｔｅｒａｔｉｏｎａｎｄａｔｔｒｉｂｕｔｅｗｅｉｇｈｔ（ＲＷＣＬＯＰＥ）．ＲＷＣＬＯＰＥｕｓｅｔｈｅ“ｓｈｕｆｆｌｅ” ｍｏｄｅｌｔｏｓｏｒｔｔｈｅｒａｗｄａｔａｒａｎｄｏｍｌｙｔｏｅｌｉｍｉｎａｔｅｔｈｅｅｆｆｅｃｔｏｆｄａｔａｉｎｐｕｔｓｅｑｕｅｎｃｅｏｎｃｌｕｓｔｅｒｉｎｇｑｕａｌｉｔｙ．Ａｔｔｈｅｓａｍｅｔｉｍｅ，ｂａｓｅｄｏｎｔｈｅｉｎｆｏｒｍａｔｉｏｎｅｎｔｒｏｐｙ，ｔｈｅｃａｌｃｕｌａｔｉｏｎｍｅｔｈｏｄｏｆａｔｔｒｉｂｕｔｅｗｅｉｇｈｔｓｉｓｐｒｏｐｏｓｅｄｔｏｄｉｓｔｉｎｇｕｉｓｈｔｈｅａｔｔｒｉｂｕｔｅｃｌｕｓｔｅｒｉｎｇｃｏｎｔｒｉｂｕｔｉｏｎｂｅｔｗｅｅｎｅａｃｈｄｉｍｅｎｓｉｏｎｗｈｉｃｈｇｒｅａｔｌｙｉｍｐｒｏｖｅｔｈｅｑｕａｌｉｔｙｏｆｄａｔａｃｌｕｓｔｅｒ

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

一种分类数据聚类算法及其高效并行实现.PDFVIP