网站大量收购独家精品文档,联系QQ:2885784924

聚类CLIQUE算法 的基本思路.ppt

  1. 1、本文档共25页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
聚类CLIQUE算法 的基本思路

CLIQUE算法的基本思路 采用基于密度的算法 聚类(cluster)就是一个区域,满足该区域中的点的密度大于与之相邻的区域。 把数据空间分割成网格单元(unit),将落到某个单元中的点的个数当成这个单元的密度(density)。可以指定一个数值,当某个单元中的点的个数大于该数值时,我们就说这个单元格是稠密(dense)的。聚类也就定义为连通的所有的稠密单元格的集合。 基本概念 设A={A1,A2,…,Ad}是n个域的集合,那么S=A1×A2×…×Ad就是一个d维空间,我们将A1,A2,…,Ad看成是S的维(属性); 算法的输入是一个n维空间中的点集,设为V={v1,v2,…,vm},其中vi={vi1,vi2,…,vid}。vi的第j个分量vij∈Aj; 通过一个输入参数ξ,可以将空间S的每一维分成相同的ξ个区间,从而将整个空间分成了有限个不相交的类矩形单元(units),每一个这样的矩形单元可以描述为{u1,u2,…,ud},其中ui=[li,hi) 是一个前闭后开区间; 基本概念 一个点v={v1,v2,…,vd}落入一个单元u={u1,u2,…,ud}中,当且仅当对于每一个ui都有li=vihi成立。 一个单元格u的选择率selectivity(u)为? selectivity(u)=单元格中的点数/总的点数 对于密度阈值(density threshold)τ,称数据单元u是绸密(dense)的,当且仅当selectivity(u)τ。密度阈值是另一个输入参数; 基本概念 对于S的任何子空间,例如子空间Sub=At1×At2×…×Atk,(kd,并且当ij时有titj成立),可以在该子空间中定义单元格,选择率等相同概念。 基本概念 一个聚类(cluster)可以定义为,在k维空间中由一些连通的稠密单元组成的最大单元集; 两个k维中的单元格u1,u2称为连通的(connected)当且仅当:(1)这两个单元格有一个公共的面;或者(2)u1,u2都跟另一个单元格u3连通; 两个单元格u1={rt1,rt2,…,rtk},u2={r’t1,r’t2,…,r’tk}有一个公共的面是指,存在k-1个维度(不妨设这k-1维就是At1,At2,…,Atk-1),有rtj=r’tj成立(j=1,2,…,k-1),并且对于第Atk维有htk=l’tk,或者h’tk=ltk成立; 基本概念 区域(region)是指一个每一边都与坐标轴平行的类矩形。也就是说这类区域是由单元格组成的且具有规则的形状,这样一个区域就可以用区间的交的形式表示出来; 区域R包含于一个聚类C,当且仅当R∩C=R;进一步我们称这样的R是最大的(maximal)当且仅当没有一个R的超集Rˊ也包含于C; 一个聚类C的最小描述是上述最大区域(maximal region)的一个集合R,R中的最大区域刚好覆盖C,集合r中的最大区域是没有冗余的,即R的任何子集都不能覆盖C; 例子 例子 问题描述 Given a set of data points and the input parameters, ? and ?, find clusters in all subspaces of the original data space and present a mimimal description of each cluster in the form of a DNF expression. CLIQUE算法 Identification of subspace that contain clusters Identification of clusters Generation of minimal description for the clusters 第一步:识别含有聚类的子空间 A bottom-up algorithm to find dense units Determines 1-dimensional dense units by making a pass over the data Having determined (k-1)-dimensional dense units, the candidate k-dimensional units are determined using candidate generation procedure. MDL-based pruning To decide which subspaces(and the corresponding dense units) are interesting. MDL------Minimal Description Length candidat

文档评论(0)

pangzilva + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档