基于混合网格划分的子空间高维数据聚类算法.pdfVIP

基于混合网格划分的子空间高维数据聚类算法.pdf

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于混合网格划分的子空间高维数据聚类算法.pdf

第20卷. 第 10期 计 算 机 技 术 与发 展 V01 . 20 № .10 2010年 l0月 COMPUTERTECHN0LOGYANDDEVEL0PMENT Oct. 20l0 基于混合网格划分的子空间高维数据聚类算法 许倡森 华南师范大学计算机学院,广东广州 510631 摘 要 :提出一种基于混合网格划分的子空间高维数据聚类算法。该算法消除了各个属性分量数值范围大小对计算的影 响;有效去除冗余属性以提高聚类准确性与降低时间复杂度。根据数据分布情况灵活选择固定网格划分或是 自适应网格 划分,利用这二种不同的网格划分方法具有的优点,以实现进一步降低算法的时间复杂度和提高聚类结果的准确性, 并使 算法具有更优的可伸缩性。实验使用仿真数据表明,该算法在处理具有属性值域范围大的高维大规模数据时是实用有效 的。 关键词:高维聚类;子空间聚类;相对熵 ;网格划分 中图分类号:TP301.6 文献标识码 :A 文章编号 :1673—629X 2010 10—0150—04 A SubspaceClusteringAlgorithm ofHighDimensionData Basedon Hybrid。‘GridPartitioning xu Chang—sen SchoolofComputer,SouthChinaNormalUniversity,Guangzhou510631,China Abstract:A subspaceclusteringalgorithm ofhigh dimensiondatasetbasedonhybrid—gridpartitioningisproposed.Theimpactofat. tributevaluesrangetothecalculationiseliminatde ,filteringoutrdeundantattributesiseffectivetoenhancetheclustering accuracyandre. dueetimecomplexity.Theflexibilitytochooes afixedoradaptivegridpartitionusingtheadvnatageofthem toimprovetimeocmplexiyt nadtheaccuracyofelust~ingaccording tothedatadistribution.Th ealgorithm hasbettersealability,too.A setofexperimentsonasyn. thetiedatasetdemonstratetheeffectivenessnadefficiencyofthealgorithmswhne clusteringonhigh dimensionalna dlarge—scaledata withthebigrangeoftheattributevalue. Keywords:highdimensionalclustering ;subspaceclustering ;relativeentropy;gridpartition O 引 言 每一维以网格进行等宽划分,常常使可能是某一聚类 科学研究与应用领域的迅速发展,积累了大量维 但被固定网格分割成多个区域造成边界不清晰和小的 度 属性 通常可以达到成百上千维的、属性值域大的 聚类被忽视 ,并且通过计算数据在网格中的分布,设定 高维数据 ,对此类高维数据的挖掘变得越来越重要。 一 个密度阈值把所得网格单元划分为稀疏和稠密两种 但是 ,受 “维度效应”的影响 ,在高维数据聚类中,当数 类型,在覆盖相连密集区域时再将其相连,在高维情况 据维数高于20时,传统聚类分析的性能会急剧下降, 下 自底向上进行聚类的过程中,划分单元的数 目增加 甚至无法完成聚类任务-1J。高维数据的研究者们发 使得产生大量的候选集 ;ENCLU$[6J利用信息熵来作 现,很多真实数据的类仅存在于子空间内。迄今为止, 为对聚类进行评价的标准,但其执行效率与 CLIQUE 方法相比没有得到明显的改善 ;MAFIA根据数据分布 研究者已经提出了许多子空间高维聚类算法,如综合 特点采用动态区间分割对数据空间进行划分,执行效 运用基于密度和网格方法的 CLIQUE_2J、基于信息熵 的ENCLUS~3J、基于动态区间分割的MAFIA[4J,以不 率与 CLIQUE算法相比有很大的提高,但它适合于并 行环境 ,实现较为复杂 J。 同的方法来实现对大规模高维数据集进行聚类 ,但总 基于上述各种方法存在的不足,文中提出一种基 的来说 ,各有优缺点,都没有取得较全面的性能 目标。 于混合网格

文档评论(0)

ziyouzizai + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档