网站大量收购闲置独家精品文档,联系QQ:2885784924

CLOPE-快速有效的聚类算法【荐】.docVIP

  1. 1、本文档共15页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
CLOPE-快速有效的聚类算法【荐】.doc

CLOPE:针对交易的数据快速有效聚类算法 摘要 本文研究分类数据的聚类问题,特别针对多维和大型的交易数据。从增加聚簇直方图的高宽比的方法得到启发,我们开发了一种新的算法---CLOPE,这是一种非常快速、可伸缩,同时又非常有效的算法。我们展示了算法两个现实数据集聚类的技术k-means[11]和CLARANS[12]都是对低维的数值型数据有效。但是对于高维分类数据的处理效果却通常不那么令人满意[7]。像ROCK这类的分层聚类算法在分类数据聚类中表现的非常有效,但是他们在处理大型数据库时表现出先天的无效。 LargeItem[13]算法通过迭代优化一个全局评估函数对分类数据进行聚类。这个评估函数是基于大项概念的,大项是在一个聚簇内出现概率比一个用户自定义的参数——最局部评估函数是根据相似性定义的方法小的,其中包含交易数据这些结果显示为几何上的直方图LUSTERING WITH SLOPE(具有倾斜的聚类) 符号:在整篇文章中,我们使用以下符号。交易数据集D是一组交易{t1, ...,tn}的集合。每条交易是一些项{i1, ..., im}的集合。一个聚簇{C1, ... Ck}是{t1, ..., tn}的一个划分,也就是说,C1 ∪ … ∪ Ck ={t1, ..., tn}而且对任意1?≤?i,?j?≤?k,满足Ci ≠ φ ∧ Ci∩Cj = φ。每一个Ci叫做一个簇。除非其它说明,n,m,k分别表示交易的个数、项的个数和聚簇的个数。 一次好的聚类应该将相似的交易分到同一组。大部分聚类算法定义一些评估函数并且优化它们,最大化簇内的相似度和簇间相异。评估函数可以定义为局部的的或者全局的两种类型。在定义为局部的方式中,评估函数建立在交易对相似性基础上。这种方式已经被广泛地应用于数值数据的聚类中,使用对相似性例如Lp((Σ|xi-yi|p)1/p)作为两点之间的相似度量。常见的分类数据的相似度量有Jaccard系数(|t1∩t2|/|t1∪t2|),Dice系数(2×|t1∩t2|/(|T1|+|T2|))或者简单地为两个交易的公共项数[10]。然而,对于大型的数据,相比于全局方法,这些局部方法在计算上的成本是非常巨大的。 在Wang等在他们的LargeItem算法[13]中首创的全局相似测度也可以用于分类数据的聚类。在全局方法中,不需要个别交易之间的两两相似度量。聚类质量在簇级测定,它利用了聚簇中大项集和小项集这样的信息。既然这些全局度量的计算要比两两相似度的计算要快得多,所以全局方法对大型分类数据库的聚类处理中是非常有效的。 与LargeItem相比,CLOPE使用一个更简单而有效的全局测度来聚类交易数据集。更高的高宽比的生动形象地反映了更好的聚类结果。 给一个聚簇C,我们可以找到其中所有不同的项以及每个项对应的出现次数,即包含了项的交易数。我们用D(C)表示不同项的集合,Occ(i,C)表示项i在聚簇C中的出现次数。然后我们可以画出聚簇C的直方图,项作为X轴,以它们出现次数的降序排列,项出现的次数作为Y轴。我们定义聚簇C的大小S(C)和宽度W(C),如下: ? ? ? ? ? ? ? ? ? ? ? ?? 聚簇的高度定义为H(C)=S(C)/W(C)。当聚簇C不重要或者能从上下文推出时,我们将H(C),S(C),W(C)简写为S,W和H。 为了阐明,我们下面详细解释图1中最后一个聚簇的直方图。请注意,几何图2中,直方图与具有高度H和宽度W的虚线矩形具有相同的大小S. 图2 聚簇 {acd, de, def }的直方图详解 很明显,一个更大的高度表示在聚簇中项之间有更多的重叠,这样聚簇中的交易就有更多的相似性。在我们运行的例子中,{ab,abc,acd}的高度是2,而{acd,de,def }的高度是1.6。既然两个聚类的所有其它的特征是相同的,我们认为聚类(1)更好。 然而,为了定义我们的评估函数,单独定义高度是不够的。取一个非常简单的数据库{ abc,def },两个交易中没有重叠,但是聚簇{{abc,def}}和聚簇{{abc},{def}}有相同的高度1。另一个做法对这个例子更合适。我们可以用梯度G(C)= H(C)/ W(C)= S(C)/ W(C)2代替H(C)作为聚簇C的质量测度。.现在,聚簇{ { abc },{ def } }更好,因为其中两个聚簇的梯度都是1/3,大于聚簇{ abc def }的梯度1/6。 为了定义聚类评估函数,,我们需要考虑每个聚簇的形状以及其中的交易数。对于聚类C = { C1,……,Ck },我们使用以下公式作为一个评估函数的直观定义。 事实上,这个评估函数可以用一个幂参数r而不是2进行泛化,如下所示。 上式中,r是一个正实数1,称为排斥因

文档评论(0)

cnsg + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档