- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于密度和层次的快速聚类算法在数据挖掘中的设计及实现.pdf
计算机·信息安全. Information Security
基于密度和层次的快速聚类算法
在数据挖掘中的设计及实现
张艳
(山东信息职业技术学院 山东珠坊 261061)
[摘要]本论文在对各种算法深入分析的基础上,尤其在对基于密度的聚类算法 he 基于层次的聚类算法深入研
究的基础上,提出了一种全新的基于密度和层次的快速聚类算法。该算法保持了基于密度聚类算法发现任意形状簇
的优点,而且具有近似线性的时间复杂性,因此该算法适合对大规模数据的挖掘。 理论分析和实验结果也证明了基
于密度和层次的聚类算法具有处理任意形状簇的聚类、对噪音数据不敏感的特点,并且其执行效率明显高于传统的
DBSCAN 算法。
[关键词]密度;层次;聚类;数据挖掘
The Design and Realization of Fast Clustering Algorithm 8ased on the Density and Level in Data Mining
Zhang Yan
(Shandong Informafion Vocafional and Techni,臼I College ShandongWeifang 261061)
[ Abstract 1 This pa冈r on the basis of deep analysis in all kinds algorithm, espedally bas创 on density clustering algorithm and on the level of clustering
algorithm deep research. Proposes a new fast clustering algorithm based on density and level. The algori伽m based on density keep clustering algorithm
find the advantages of a巾i恼ry shape dusters, and with approximate linear 吕me ∞mplexity, 50 the algol协m suitable for large-scale 甸甸 mining.
Theoretiω1 analysis and experimental 陪sults al50 proved based on density and hierarchical clustering algorithm is deal with arbi怕ry shape cluste陀
clustering, is not sensitive to noise data, and the characte时stic of its e而ciency is obviously higher than that of the 甘adifional DBSCAN algo愉1m.
[ Ke阳ords 1 density; level; clustering; da恼 mining
1 前言
聚类其实就是将数据对象分组成多个类或簇,在同
一个簇中的对象之间具有较高的相似度,而不同簇中的
对象差别较大。
基于密度的 DBSCAN 聚类方法能够发现任意形状
的聚类结果,这类方法将簇看作是数据空间中被低密度
区域分割开的高密度对象区域。但是,该算法的时间复
杂性是 O(n匀,用这种复杂度的算法聚类大型数据库是
不太现实的。层次聚类 CURE 算法选择基于质心和基于
代表对象方法之间的中间策略。使用 CURE 形成代表点
的思想来形成 DBSCAN 算法所需要的 m (mn) 代表
点,然后对代表点进行 DBSCAl司算法聚类。保持了基于
密度聚类算法发现任意形状簇的优点,而且具有近似线
性的时间复杂性。
2 基于密度和层次的快速聚类算法设计
多维空间与三维空间的距离计算相似,为了方便地
描述算法,在本文中以三维空间为例来分析基于密度和
层次的聚类算法。
本算法采用的是凝聚的层次聚类方法,即自底向上
的方法。该凝聚过程由主层组成,如图 l 所示。最底层所
信息安全与技术 .2013 年 8 月 .59.
Information Security . 信息安全 ·计算机
有的数据对象被视为各自处子一个簇中,作为该算法的
输入参数。 将整个数据集中的数据凝聚为以候选代表点
为中心的一个个集合,并通过密度阂值筛选,去掉一些
过稀疏的候选代表点,如围中代表集和ab的代表点,
留下的代表点即为排除孤立点的中间层聚类结果。 最高
层,也就是最终的聚类结果层,它是在中间层的基础上 ,
将邻接代表点聚类形成的簇,一个簇中由多于一个的代
表点构成 ,使得它能够适应非球
您可能关注的文档
最近下载
- 2023年下半年广西普通高中学业水平合格性考试数学真题试卷含答案.docx VIP
- 量子计算性能评估基准研究报告 202412.pdf VIP
- 全国第三届职业技能大赛(劳动关系协调师)选拔赛理论考试题库(含答案).docx VIP
- 胃癌临床表现.pptx VIP
- 不不兔课件.ppt VIP
- 《无机化学与化学分析》课程思政案例.docx VIP
- 2025辽宁沈阳城市建设投资集团所属企业沈阳国际工程咨询集团有限公司招聘11人笔试备考试题及答案详解.docx VIP
- (高清版)DB5119∕T 21-2021 地理标志产品 江口醇酒生产技术规范 .pdf VIP
- 拆除工程安全技术规范.pdf VIP
- 考研真题 天津外国语大学801英语语言文学(英美文学方向)历年考研真题汇编.docx VIP
文档评论(0)