- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种基于网格增量聚类算法
一种基于网格的增量聚类算法
摘 要:分析了现有基于网格的聚类算法,该算法具有高效且可以处理高维数据的特点,但传统网格聚类算法的聚类质量受网格划分的粒度影响较大。为此,提出了一种基于网格的增量聚类算法IGrid。IGrid算法具有传统网格聚类算法的高效性,且通过维度半径对网格空间进行了动态增量划分以提高聚类的质量。在真实数据集与仿真数据集上的实验结果表明,IGrid算法在聚类准确度以及效率上要高于传统的网格聚类算法。
关键词:增量;聚类;网格;数据挖掘
中图分类号:TP311文献标志码:A
文章编号:1001-3695(2009)06-2038-03
doi:10.3969/j.issn.1001-3695.2009.06.011
Incremental clustering algorithm based on grid
YIN Gui-sheng,YU Xiang,NING Hui
(Dept. of Computer Science Technology, Harbin Engineering University, Harbin 150001, China)
Abstract:This paper analyzed the existing clustering algorithms based on grid,and the clustering algorithms based on grid had the advantages of dealing with high dimensional data and high efficiency. However, traditional algorithms based on grid were influenced greatly by the granularity of grid partition.It proposed an incremental clustering algorithm based on grid, which was called IGrid.IGrid had the advantage of high efficiency of traditional clustering algorithms based on grid, and it also partitioned the grid space by dimensional radius in a dynamic and incremental manner to improve the quality of clustering.The experiments on real datasets and synthetic datasets show that IGrid has better performance than traditional clustering algorithms based on grid in both speed and accuracy.
Key words:incremental; clustering; grid; data mining
0 引言??
聚类分析是数据挖掘领域中的一项重要的研究课题。聚类分析可以作为一个独立的工具来获得数据分布的情况,此外,也可以将聚类分析作为其他算法的预处理步骤。传统的基于网格的聚类算法的主要优点是处理速度快,其处理时间独立于数据对象的数目, 仅依赖于量化空间中每一维上的单元数目
[1,2]。??
基于网格的聚类算法中,有代表性的包括:STING,它利用了存储在网格单元中的统计信息;WaveCluster,它用一种小波转换方法来聚类数据对象;CLIQUE,它是在高维数据空间中基于网格和密度的聚类方法。??
STING是一种基于网格的多分辨率聚类技术,它将空间区域划分为矩形单元。针对不同级别的分辨率,通常存在多个级别的矩形单元,这些单元形成了一个层次结构,并对每个网格单元属性的统计信息预先进行了计算和存储。STING的效率很高,对于n个数据对象,在层次结构建立后,形成m个最低层网格单元,其产生聚类的时间复杂度为O(n)。其查询处理时间是O(m)。STING聚类的质量取决于网格结构最低层的粒度。如果网格结构最低层的粒度较细,则处理的代价会增加,在数据集的维度较高时尤为明显;如果网格结构最低层的粒度太粗,则会降低聚类的质量。??
WaveCluster是一种多分辨率的聚类算法,它首先通过在数据空间上强加一个多维网格结构来汇总数据;然后采用小波变换来变换原特征空间,在变换后的空间中找到
您可能关注的文档
最近下载
- 执业药师继续教育《前列腺癌常见其他治疗进展》习题答案.docx VIP
- 高一作文巧遇(2篇).docx VIP
- 人人峨嵋台地北缘断裂晚第四纪活动性.pdf VIP
- 肺淋巴瘤的影像诊断最全PPT【45页】.pptx VIP
- 血液透析中空气栓塞应急预案.ppt VIP
- 材料力学(刘鸿文主编).pdf VIP
- 2024-2025学年河北省保定市竞秀区北京师大保定实验学校八年级(上)月考数学试卷(9月份)(原卷全解析版).doc VIP
- Toshiba东芝软水机TS10-01 TS15-01 TS20-01用户手册.pdf
- 娄景书(娄景书).doc VIP
- 人教版高中英语新教材必修2单词默写表.docx VIP
文档评论(0)