基于网格局部密度的聚类算法.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于网格局部密度的聚类算法.pdf

2011年第3期 林 区教学 No.3 201l 总第 168期 Teaching ofForestry Region GeneralNo.168 基 于 网格 局 部 密 度 的 聚 类 算 法 马 莹 波 (南京信息工程大学 计算机与软件学院,南京210044) 摘 要:为了使基于网格的聚类技术适用于多密度数据集,提出一种基于局部密度的聚类算法。算法提出将数 据单元格密度分类的方法,使得具有不同密度的单元格使用不同密度阈值的进行聚类。同时给出了边界单元的处 理方法以提高聚类结果的精度。实验结果表明,GLD算法比其他类似算法有较高的聚类精度和效率。 关键词 :聚类 ;基于网格 ;局部密度 ;边界点 中图分类号:TP301.6 文献标志码:A 文章编号 :1008—6714(2011)03—0095—02 1 引言 2 基于网格的局部密度聚类算法 聚类分析是数据挖掘技术中重要的组成部分,其主要 2.1 相关概念 目的是将数据空间中的数据点划分到若干个类中,其中将 给定一个 d维数据集,其属性 ( ,A:,…,A)都是有 距离相近的数据点划分到相同的类 中,而将距离较远的数 界的,不妨设 i维上的值在区间 ,h]中,i=1,2,…,k,则 据点划分到不同类 中。 S=[z。,h]×[f:,h]×…× ,h]就是k维数据空间。k 基于网格的方法对数据集所分布的空间进行划分 ,生 维数据集X= , ,…, }表示 .s上的一个点集,其中 。 成一系列单元格的集合 ,即一个网格结构。所有的聚类操 = 一, …, 表示一个数据点,是数据点 作都在网格上进行 。该类算法的聚类结果的质量独立于 的第.维上的值 。 数据对象的数 目,仅与网格 的大小和密度 阈值有关。所 我们定义一个网格单元的相邻单元是那些与该单元 以,当各个类的数据集的密度分布相对较均匀时,聚类结 格有相邻边界单元,两个单元格,u={尺。,R:,…, },/,/: 果的质量就较高;反之 ,当各个类的密度分布较分散时,算 = { ,R ,…, }有相邻边界是指 ,存在 k—1个维度有 R,:尺成立,其中J=1,2,…,k,并且对于第 k维有 h= 法聚类结果往往不能很好地反映真实聚类的情况。但是, 或者 =h成立。两个k维单元格,每一格单元的邻居数 在实际应用问题 中,很多样本数据的各个类 的密度往往是 为 2(出于数据空间边界的单元除外)。 不尽相同的,有的甚至差别很大。大多数聚类算法都是致 设数据点 = l,2,…, 及单元 Ci={C1,c2,…, 力于如何发现任意形状和大小的类,但很难有效处理密度 C},如果对所有的c都满足 z h。,表示 ∈C,单元 差别较大的样本数据。 密度d定义为一个数据集 中属于单元c的数据点的个 Chameleon算法 可以用来处理多密度的数据集 ,但 数。 : 当数据集较大时其算法的时间复杂度较高;多阶段等密度 如果一个单元 c密度 d大于指

文档评论(0)

kfigrmnm + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档