- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于网格的聚类方法研究_计算机论文.doc
基于网格的聚类方法研究_计算机论文
基于网格的聚类方法研究_计算机论文
摘要:已有的聚类算法对于发现任意形状的聚类和处理离群点效果不理想,分析了现有基于网格的聚类算法。使用网格方法的数据分析方法将空间划分为由(超)矩形网格单元组成的网格,然后在网格单元上进行聚类。最后,总结全文并提出基于网格的聚类需要进一步研究的方向。
关键词:数据挖掘网格聚类
1 引言
数据挖掘是指从大型数据库或数据仓库中提取隐含的、未知的及有应用价值的信息或模式。它是数据库研究中的一个很有应用价值的领域,融合了数据库、机器学习、统计学等多个领域的理论和技术[1]。
聚类分析是数据挖掘中广为研究的课题之一,是从数据中寻找数据间的相似性,并依此对数据进行分类,从而发现数据中隐含的有用信息或知识。目前已经提出了不少数据聚类算法,其中比较著名的有CLARANS[2]、BIRCH[3]、DBSCAN[4]和CLIQUE[5]等。但对于高维、大规模数据库的高效聚类分析仍然是一个有待研究的开放问题。
网格方法是空间数据处理中常用的将空间数据离散化的方法。基于网格的聚类算法由于易于增量实现和进行高维数据处理而被广泛应用于聚类算法中。研究人员已经提出了很多基于网格的聚类算法,包括STING[6],它利用了存储在网格单元中的统计信息WaveCluster[7]它用一种小波转换方法来聚类数据对象CLIQUE在高维数据空间中基于网格和密度的聚类方法等。
本文对已有的基于网格的聚类算法进行了研究,从网格的表示,划分网格单元的方法,到统计网格内信息,搜索近邻网格单元,聚类超过指定阙值的网格单元的各个步骤进行了分析,最后对基于网格方法聚类的研究方向做了展望。
2 网格的定义与划分
网格的基本概念,设A1, A2,…, Ar 是数据集O={O1, O2,…, On }中数据对象的r 个属性的有界定义域,那W=A1 ×A2 ×…×Ar 就是一个r 维空间, 将A1,A2 ,…, Ar 看成是W 的维( 属性、字段),则对于一个包含n 个数据点的r 维空间中的数据集O={O1 , O2 ,…, On },其中Oi ={Oi1 , Oi2 ,…, Oir }( i=1, 2,…, n) , Oi 的第j 个分量Oij ∈Aj 。将W的每一维M等分,即把W分割成个网格单元。
基于网格聚类算法的第一步是划分网格结构,按搜索子空间的策略不同, 主要有基于由底向上网格划分方法的算法和基于自顶向下网格划分方法的算法。
2.1 由底向上的划分方法
由底向上的网格划分方法按照用户输入的划分参数(即每维段数ki,1 ≤i ≤d),将数据空间均匀划分为相等大小的网格单元,假设落入同一网格单元内的所有数据点都属于同一个簇,每个网格单元保存落入其内数据的统计信息,比如数据点个数,数据点之和。包含一定数目数据点的网格单元被称为高密度网格单元。
WaveCluster与CLIQUE是采用由底向上网格划分方法的代表性算法。WaveCluster处理低维空间数据,它的性能超越了BIRCH、CLARANS,与DBSCAN等优秀的聚类算法[15]。CLIQUE考虑了高维子空间聚类,但它的时间复杂度较高,需要用户指定全局密度阈值。算法MAFIA[8]对CLIQUE进行了改进,为了减少聚类算法需要处理的网格单元数目,MAFIA将均匀划分网格中每一维上数据分布密度相似的相邻段合并,由此得到一个不均匀划分的网格。这个网格在数据分布较均匀的区域划分粒度大,在数据分布不均匀的区域划分粒度小,这种不均匀划分网格的方法能够提高聚类的质量,被后续的许多算法所采用。
采用由底向上的网格划分方法的优点在于,它能通过对数据的一遍扫描,将数据压缩到一个网格数据结构内,并基于这个网格数据结构,发现任意形状的簇。此外,如果网格单元的粒度较小(即体积较小),那么得到的聚簇的精度较高,但是算法的计算复杂度较大。此外,由底向上的网格方法存在不适合处理高维数据的问题。在高维空间,数据的分布是非常稀疏的,网格方法失去其压缩作用,而且属于同一个簇的高密度网格单元也可能不相连,这使聚类算法不能发现合理数目的簇。
2.2 自顶向下的划分方法
自顶向下的网格划分方法采取分治的策略(divide and conquer principle),对数据空间进行递归划分,使问题的规模不断减小。首先将原数据空间划分为几个较大的区域。对于每个得到的区域,划分过程反复执行,直到每个区域包含属于同一个簇的数据点,那么这些区域就是最终的网格单元。基于自顶向下网格方法的聚类算法直接将高密度网格单元识别为一个簇,或是将相连的高密度网格单元识别为簇。
OptiGrid[9]与CLTree
您可能关注的文档
- 基于WEB的智能搜索应用技术探讨 _计算机论文.doc
- 基于Web的研究生学位信息管理系统开发关键技术_通信学论文.doc
- 基于WEB的计算机辅助机械创新设计系统研究-_计算机论文.doc
- 基于Windows XP的PVM的实现_计算机论文.doc
- 基于Windows2000开发WDM设备驱动程序的方法_计算机论文.doc
- 基于Windows的车床微机数控系统研究 _计算机论文.doc
- 基于xDSL宽带网络测试系统的TL1通信协议设计与实现_计算机网络论文.doc
- 基于XML 的异构数据交换的研究_计算机网络论文.doc
- 基于XML和工作流的消息代理设计与实现_计算机论文.doc
- 基于XML的个性化网络教学课件系统的研究和实现_计算机网络论文.doc
- 基于网络信息资源的有效组织管理与利用_计算机网络论文.doc
- 基于网络平台的多媒体集中管理与维护_计算机网络论文.doc
- 基于网络的数字电子技术创新教学模式研究_计算机网络论文.doc
- 基于网络的社科信息资源分布及检索策略研究_计算机网络论文.doc
- 基于网络的轨道交通工程支付管理系统研究与应用_计算机网络论文.doc
- 基于网络舆情热点的形成与发展、现状及舆论引导_计算机网络论文.doc
- 基于联结主义的连续记分IRT模型的项目参数和被试能力估计_计算机论文.doc
- 基于聚类K-means算法的初值依赖性研究_计算机论文.doc
- 基于聚类分析的K-means算法研究及应用_计算机论文.doc
- 基于胜任力的工程咨询项目经理绩效考核研究_工程建筑论文.doc
文档评论(0)