一个近似的线性时间聚类算法.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一个近似的线性时间聚类算法.pdf

维普资讯 2005年9月 广西师范学院学报(自然科学版) Sep.2005 第 22卷 第 3期 JournalofGuangxiTeachersEducationUniversity(NaturalScienceEdition) Vo1.22No.3 文章编号:1002—8743(2005)03—0080—05 一 个近似的线性时间聚类算法 孙 军 华 (江苏广播电视大学 信息工程学院,江苏 南京 210036) 摘 要:聚类分析是数据挖掘的一个重要研究方向,而PAM算法是聚类算法中一个重要的方法.本文针对 PAM算法不适应大数据集的缺点,给出一个近似的线性时间聚类算法(AL( ),并且从理论上证明了该算法复杂 度为关于数据集个数的线性时间复杂度.通过 比较实验表明:1)随着数据个数的增大,PAM 所花费的时间将激剧 增大,而ALCM花费时间与数据集个数呈近似线性增长的关系 ,即AI,(、I是适应大数据集的.2)PAM算法和AL— CM算法随数据个数增大,二者的代价函数并无明显差异. 关键词:聚类分析;线性时间;算法 ;数据挖掘 中图分类号:TP311 文献标识码 :A 1 引 言 聚类是传统统计学中的一个重要研究方向,也是数据挖掘的一个重要研究分支.聚类是一种无先验 知识的分类,是将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程.其在商务上、生 物学上、地学上以及其它许多领域中均被广泛应用.目前的聚类算法主要可分为划分方法 (Partitioning method)、层次法(Hierarchicalmethod)、基于密度的方法 (Density.basedmethod)、基于网格的方法(Grid. basedmethod)和基于模型的方法 (Mode1.basedmethod)等….其中划分方法的含义是对给定的n个对 象,将其划分为k类.最早提出的划分方法是k一平均法 】.该方法对处理大数据集具有可伸缩性,但它 对 “噪声”和孤立点数据太敏感.改进的K一划分法有K.中心法,其中较有影响的方法为L.Kaufman等 提出的PAM(PratitioningraoundMedoid,围绕中心点的划分)算法 J.它有较强的抗 “噪声”和抗孤立点 干扰能力,比k一平均法更健壮且聚类结果与输入数据的顺序无关.因此,基于中心点的算法实际上已 成为所有聚类算法的基础.但其缺点是执行代价比k一平均法高.为了使PAM适应大数据集,并且保证 聚类质量,R.NgandJ.Hna 提出了CLARANS(ClusteringLargeApplicationbaseduponRnadomized search)算法[4】,但由于其算法复杂度为O(n2),因而没有从根本上提高 K.中心法的效率. 为克服以上不足,本文给出一个近似的线性时间K.中心点聚类算法 (ApproximatedLinearCluster. ingMethod,AI.CM).ALCM 的主要思想是改进中心点的算法,以近似中心点方法代替原算法中的中心 点算法,从而以较小的聚类质量代价换取了很高的聚类效率. 2 ALCM算法 为了便于大家理解ALCM算法 ,本节先简单介绍PAM算法,详细内容见文献[1]. 2.1 PAM 算法 为发现k个聚类,PAM方法为每一个聚类确定了一个代表对象,称为中心点.一旦选定中心点,每 一 个未被选中的对象与该中心点分在一组应该是最相似的. 收稿 日期:20o5一O6一O8 作者简介:孙军华(1970一),女,汉族 ,安徽望江人,讲师 ,主要研究方向:计算机应用学科的研究与教学工作 维普资讯 第3期 孙军华:一个近似的线性时间聚类算法 ·81· 若q是一个未被选中作为中心点的对象,而O 是选中的中心点,若 d(Of,O)=rain (O, ),则 O,属于由O 代表的聚类. 聚类

文档评论(0)

suijiazhuang1 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档