基于混合网格划分的子空间高维数据聚类算法.pdfVIP

下载本文档

12
0
约8千字
约 4页
2018-03-27 发布于重庆
举报
版权申诉

基于混合网格划分的子空间高维数据聚类算法.pdf

1、本文档共4页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于混合网格划分的子空间高维数据聚类算法.pdf

第20卷．第 10期计算机技术与发展 V01 ． 20 № ．10 2010年 l0月 COMPUTERTECHN0LOGYANDDEVEL0PMENT Oct． 20l0 基于混合网格划分的子空间高维数据聚类算法许倡森华南师范大学计算机学院，广东广州 510631 摘要：提出一种基于混合网格划分的子空间高维数据聚类算法。该算法消除了各个属性分量数值范围大小对计算的影响；有效去除冗余属性以提高聚类准确性与降低时间复杂度。根据数据分布情况灵活选择固定网格划分或是自适应网格划分，利用这二种不同的网格划分方法具有的优点，以实现进一步降低算法的时间复杂度和提高聚类结果的准确性，并使算法具有更优的可伸缩性。实验使用仿真数据表明，该算法在处理具有属性值域范围大的高维大规模数据时是实用有效的。关键词：高维聚类；子空间聚类；相对熵；网格划分中图分类号：TP301．6 文献标识码：A 文章编号：1673—629X 2010 10—0150—04 A SubspaceClusteringAlgorithm ofHighDimensionData Basedon Hybrid。‘GridPartitioning xu Chang—sen SchoolofComputer，SouthChinaNormalUniversity，Guangzhou510631，China Abstract：A subspaceclusteringalgorithm ofhigh dimensiondatasetbasedonhybrid—gridpartitioningisproposed．Theimpactofat． tributevaluesrangetothecalculationiseliminatde ，filteringoutrdeundantattributesiseffectivetoenhancetheclustering accuracyandre． dueetimecomplexity．Theflexibilitytochooes afixedoradaptivegridpartitionusingtheadvnatageofthem toimprovetimeocmplexiyt nadtheaccuracyofelust~ingaccording tothedatadistribution．Th ealgorithm hasbettersealability，too．A setofexperimentsonasyn． thetiedatasetdemonstratetheeffectivenessnadefficiencyofthealgorithmswhne clusteringonhigh dimensionalna dlarge—scaledata withthebigrangeoftheattributevalue． Keywords：highdimensionalclustering ；subspaceclustering ；relativeentropy；gridpartition O 引言每一维以网格进行等宽划分，常常使可能是某一聚类科学研究与应用领域的迅速发展，积累了大量维但被固定网格分割成多个区域造成边界不清晰和小的度属性通常可以达到成百上千维的、属性值域大的聚类被忽视，并且通过计算数据在网格中的分布，设定高维数据，对此类高维数据的挖掘变得越来越重要。一个密度阈值把所得网格单元划分为稀疏和稠密两种但是，受 “维度效应”的影响，在高维数据聚类中，当数类型，在覆盖相连密集区域时再将其相连，在高维情况据维数高于20时，传统聚类分析的性能会急剧下降，下自底向上进行聚类的过程中，划分单元的数目增加甚至无法完成聚类任务-1J。高维数据的研究者们发使得产生大量的候选集；ENCLU$[6J利用信息熵来作现，很多真实数据的类仅存在于子空间内。迄今为止，为对聚类进行评价的标准，但其执行效率与 CLIQUE 方法相比没有得到明显的改善；MAFIA根据数据分布研究者已经提出了许多子空间高维聚类算法，如综合特点采用动态区间分割对数据空间进行划分，执行效运用基于密度和网格方法的 CLIQUE_2J、基于信息熵的ENCLUS~3J、基于动态区间分割的MAFIA[4J，以不率与 CLIQUE算法相比有很大的提高，但它适合于并行环境，实现较为复杂 J。同的方法来实现对大规模高维数据集进行聚类，但总基于上述各种方法存在的不足，文中提出一种基的来说，各有优缺点，都没有取得较全面的性能目标。于混合网格