- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于网格和密度聚类算法分析与研究
基于网格和密度聚类算法分析与研究
摘 要:针对CLIQUE算法的特点以及所存在的问题进行深入的研究。为了进一步提高其处理高维海量数据的能力,在原算法的基础上提出一种基于密度样本分析和基于最优区间分割进行改进的聚类算法,并通过使用仿真数据加以验证是可行的,理论分析与实验结果表明,与原算法相比,改进算法不仅保留原算法的优点,且对大规模数据集有着很好的聚类效果。
关键词:聚类;最优区间分割;密度;CLIQUE算法
中图分类号:TP301文献标识码:A文章编号:1004373X(2008)2012503
Research and Analysis of Clustering Algorithm Based on Grid and Density
XU Yingjie,SUN Junyi
(Computer College,Hubei University of Technology,Wuhan,430068,China)
Abstract:The characters and existing problems of CLIQUE clustering algorithm are intensive researched.In order to improve the ability of solving the high dimention and mass data,based on the old algorithm,a modified one with the methods of density and the best space division is presented.Proving it with simulation data and it is feasible.Theory analysis and experimental results demonstrate the improved algorithm not only can keep its old advantages but also can get better clustering results.
Keywords:clustering;the best space division;density;CLIQUE algorithm
1 引 言
在早期,聚类分析作为统计学的一个分支,主要集中在基于距离的聚类分析。随着机器学习研究领域的兴起,聚类成为无指导学习的一个例子。聚类分析是依据样本间关联的量度标准将其自动分成几个群组,使同一群组内的样本相似,而属于不同群组的样本相异的一组方法[1]。现在,聚类算法已成功地应用在空间数据库、模式识别、图像处理、过程优化、生物学以及市场营销、配方设计等许多领域中,并取得了良好效果。根据对象数据间相似度和对聚类评价准则的不同,常用的聚类方法可分为:划分方法、层次的方法、基于密度的方法、基于网格的方法和基于模型的方法等。为了进一步提高聚类算法在处理高维海量数据时的准确性和有效性,本文重点研究与改进CLIQUE算法,并通过实验加以仿真。
2 CLIQUE算法分析
CLIQUE聚类算法综合了基于密度和网格的聚类算法的特点。它对于大型数据库中高维数据的聚类非常有效。给定一个多维数据点的数据集合,数据点在数据空间中通常不是均匀分布的。CLIQUE将数据空间分割成网格单元,把落到某一个网格单元中点的个数当成这个单元的密度。可以指定一个阂值,当某一个网格单元中点的个数大于阂值时,就说这个单元格是稠密的。聚类就可定义为相连的密集单元的最大集合[1]。
CLIQUE对元组的输入顺序不敏感,无需假设任何规范的数据分布。CLIQUE自动发现最高维的子空间,高密度聚类存在于这些子空间中。它随输入数据的大小线性的扩展,当数据维数增加时具有良好的可伸缩性,但是它也存在着很多局限性,主要有以下几点[2]。
(1) 边缘区域精度问题。由于算法采用硬划分技术,在类的边界区域。其包含的点数比较少,有可能被误认为非密集单元,这样就容易破坏类的边缘区域,降低结果的准确性。
(2) 孤立点问题。CLIQUE算法不能自动去除数据集中的孤立点,需要增加额外的步骤去除孤立点,这就增加了算法复杂性。
(3) 子空间的剪枝问题。CLIQUE算法应用一种剪枝技术来减少密集单元候选集的数目。通过把在同一个子空间中的密集单元分组,并且找出每一个子空间中密集单元选出的数据覆盖。覆盖大的子空间将被选出其余的将被剪枝。这种技术可能遗失一些密集单元。
(4) 算法的精确性问题。算法中很多步骤都大大简化,并且用的是近似算
您可能关注的文档
- 基于经济学视角中药材流通问题分析.doc
- 基于经济学视角企业会计信息失真分析与研究.doc
- 基于经济学视角企业内训套票定价策略研究.doc
- 基于经济学视角影响农村土地流转因素及模式研究.doc
- 基于经济学视角新型网络暴力行为分析.doc
- 基于经济学视角蚁族现象分析.doc
- 基于经济学角度会计信息失真原因探讨.doc
- 基于经济学角度公共权力腐败探析.doc
- 基于经济学角度农产品产供销一体化动因.doc
- 基于经济学角度广告作用和效果浅析.doc
- 湖南省衡阳市第八中学2026届高三上学期第一次月考物理(原卷版).doc
- 浙江省普通高中尖峰联盟2026届高三上学期10月联考英语(原卷版).doc
- 四川省绵阳市南山中学实验学校2026届高三上学期10月月考英语(原卷版).doc
- 湖南省衡阳市第八中学2026届高三上学期第二次月考历史 Word版含解析.doc
- 福建中考物理5年(2021-2025)真题分类汇编:专题09 功和机械能(原卷版).doc
- 福建中考物理5年(2021-2025)真题分类汇编:专题10 内能及其利用(原卷版).doc
- 福建中考物理5年(2021-2025)真题分类汇编:专题07 压强(原卷版).doc
- 福建中考物理5年(2021-2025)真题分类汇编:专题01 机械运动(原卷版).doc
- 福建中考物理5年(2021-2025)真题分类汇编:专题02 声现象(解析版).doc
- 福建中考物理5年(2021-2025)真题分类汇编:专题02 声现象(原卷版).doc
最近下载
- 初中地理教学中的跨学科融合研究教学研究课题报告.docx VIP
- 保险精算李秀芳1-5章习题答案精编版.pdf VIP
- 钱塘湖春行优质课市公开课一等奖课件名师大赛获奖课件.pptx VIP
- 2024届大湾区普通高中毕业班(高三)第一次联合模拟(一模)考试数学试题(含答案).pdf
- 第7节 三国两晋南北朝的政权更替和内政外交 知识清单 高三统编版(2019)历史一轮复习(选必融合).docx VIP
- 护士长年终述职报告PPT模板(含完整内容)2.pptx VIP
- 学堂在线 人工智能原理 章节测试答案.docx VIP
- 我国农村垃圾污染防治法律问题研究.doc VIP
- 护士长年终述职报告PPT(含完整内容)14.pptx VIP
- 泰语专业职业生涯规划.pptx VIP
原创力文档


文档评论(0)