基于网格局部密度的聚类算法.pdfVIP

下载本文档

16
0
约7.92千字
约 2页
2015-08-08 发布于湖北
举报
版权申诉

基于网格局部密度的聚类算法.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于网格局部密度的聚类算法.pdf

2011年第3期林区教学 No．3 201l 总第 168期 Teaching ofForestry Region GeneralNo．168 基于网格局部密度的聚类算法马莹波 (南京信息工程大学计算机与软件学院，南京210044) 摘要：为了使基于网格的聚类技术适用于多密度数据集，提出一种基于局部密度的聚类算法。算法提出将数据单元格密度分类的方法，使得具有不同密度的单元格使用不同密度阈值的进行聚类。同时给出了边界单元的处理方法以提高聚类结果的精度。实验结果表明，GLD算法比其他类似算法有较高的聚类精度和效率。关键词：聚类；基于网格；局部密度；边界点中图分类号：TP301．6 文献标志码：A 文章编号：1008—6714(2011)03—0095—02 1 引言 2 基于网格的局部密度聚类算法聚类分析是数据挖掘技术中重要的组成部分，其主要 2．1 相关概念目的是将数据空间中的数据点划分到若干个类中，其中将给定一个 d维数据集，其属性 ( ，A：，…，A)都是有距离相近的数据点划分到相同的类中，而将距离较远的数界的，不妨设 i维上的值在区间，h]中，i=1，2，…，k，则据点划分到不同类中。 S=[z。，h]×[f：，h]×…× ，h]就是k维数据空间。k 基于网格的方法对数据集所分布的空间进行划分，生维数据集X= ，，…， }表示．s上的一个点集，其中。成一系列单元格的集合，即一个网格结构。所有的聚类操 = 一， …，表示一个数据点，是数据点作都在网格上进行。该类算法的聚类结果的质量独立于的第．维上的值。数据对象的数目，仅与网格的大小和密度阈值有关。所我们定义一个网格单元的相邻单元是那些与该单元以，当各个类的数据集的密度分布相对较均匀时，聚类结格有相邻边界单元，两个单元格，u={尺。，R：，…， }，／,／：果的质量就较高；反之，当各个类的密度分布较分散时，算 = { ，R ，…， }有相邻边界是指，存在 k—1个维度有 R，：尺成立，其中J=1，2，…，k，并且对于第 k维有 h= 法聚类结果往往不能很好地反映真实聚类的情况。但是，或者 =h成立。两个k维单元格，每一格单元的邻居数在实际应用问题中，很多样本数据的各个类的密度往往是为 2(出于数据空间边界的单元除外)。不尽相同的，有的甚至差别很大。大多数聚类算法都是致设数据点 = l，2，…，及单元 Ci={C1，c2，…，力于如何发现任意形状和大小的类，但很难有效处理密度 C}，如果对所有的c都满足 z h。，表示 ∈C，单元差别较大的样本数据。密度d定义为一个数据集中属于单元c的数据点的个 Chameleon算法可以用来处理多密度的数据集，但数。：当数据集较大时其算法的时间复杂度较高；多阶段等密度如果一个单元 c密度 d大于指