聚类CLIQUE算法的基本思路.ppt

下载文档 降价啦

551
0
约4.86千字
约 25页
2017-12-16 发布于江西
举报
版权申诉
保障服务

聚类CLIQUE算法的基本思路.ppt

1、本文档共25页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

聚类CLIQUE算法的基本思路

CLIQUE算法的基本思路采用基于密度的算法聚类（cluster）就是一个区域，满足该区域中的点的密度大于与之相邻的区域。把数据空间分割成网格单元(unit)，将落到某个单元中的点的个数当成这个单元的密度（density）。可以指定一个数值，当某个单元中的点的个数大于该数值时，我们就说这个单元格是稠密（dense）的。聚类也就定义为连通的所有的稠密单元格的集合。基本概念设A=｛A1,A2,…,Ad｝是n个域的集合，那么S=A1×A2×…×Ad就是一个d维空间，我们将A1,A2,…,Ad看成是S的维（属性）；算法的输入是一个n维空间中的点集,设为V=｛v1,v2,…,vm｝，其中vi=｛vi1,vi2,…,vid｝。vi的第j个分量vij∈Aj；通过一个输入参数ξ，可以将空间S的每一维分成相同的ξ个区间，从而将整个空间分成了有限个不相交的类矩形单元(units)，每一个这样的矩形单元可以描述为｛u1,u2,…,ud｝,其中ui=[li,hi) 是一个前闭后开区间；基本概念一个点v=｛v1,v2,…,vd｝落入一个单元u=｛u1,u2,…,ud｝中，当且仅当对于每一个ui都有li=vihi成立。一个单元格u的选择率selectivity(u)为? selectivity(u)=单元格中的点数/总的点数对于密度阈值（density threshold）τ，称数据单元u是绸密(dense)的，当且仅当selectivity(u)τ。密度阈值是另一个输入参数；基本概念对于S的任何子空间，例如子空间Sub=At1×At2×…×Atk，（kd，并且当ij时有titj成立），可以在该子空间中定义单元格，选择率等相同概念。基本概念一个聚类（cluster）可以定义为，在k维空间中由一些连通的稠密单元组成的最大单元集；两个k维中的单元格u1,u2称为连通的（connected）当且仅当：（1）这两个单元格有一个公共的面；或者（2）u1,u2都跟另一个单元格u3连通；两个单元格u1=｛rt1,rt2,…,rtk｝,u2=｛r’t1,r’t2,…,r’tk｝有一个公共的面是指，存在k-1个维度（不妨设这k-1维就是At1,At2,…,Atk-1），有rtj=r’tj成立（j=1,2,…,k-1），并且对于第Atk维有htk=l’tk，或者h’tk=ltk成立；基本概念区域(region)是指一个每一边都与坐标轴平行的类矩形。也就是说这类区域是由单元格组成的且具有规则的形状，这样一个区域就可以用区间的交的形式表示出来；区域R包含于一个聚类C，当且仅当R∩C=R；进一步我们称这样的R是最大的（maximal）当且仅当没有一个R的超集Rˊ也包含于C；一个聚类C的最小描述是上述最大区域（maximal region）的一个集合R，R中的最大区域刚好覆盖C，集合r中的最大区域是没有冗余的，即R的任何子集都不能覆盖C；例子例子问题描述 Given a set of data points and the input parameters, ? and ?, find clusters in all subspaces of the original data space and present a mimimal description of each cluster in the form of a DNF expression. CLIQUE算法 Identification of subspace that contain clusters Identification of clusters Generation of minimal description for the clusters 第一步：识别含有聚类的子空间 A bottom-up algorithm to find dense units Determines 1-dimensional dense units by making a pass over the data Having determined (k-1)-dimensional dense units, the candidate k-dimensional units are determined using candidate generation procedure. MDL-based pruning To decide which subspaces(and the corresponding dense units) are interesting. MDL------Minimal Description Length candidat

您可能关注的文档

文档评论（0）

pangzilva + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

聚类CLIQUE算法的基本思路.ppt