数据挖掘5最新精品课程完整课件(第5讲)基于网格的聚类算法.ppt

下载文档 降价啦

22
0
约7.04千字
约 31页
2015-12-11 发布于湖北
举报
版权申诉
保障服务

数据挖掘5最新精品课程完整课件(第5讲)基于网格的聚类算法.ppt

1、本文档共31页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

STING:统计信息网格优点如下：计算是独立于查询的；有利于并行处理和增量更新；效率很高。 STING算法扫描数据库一次来计算单元的统计信息，因此产生聚类的时间复杂度是o(n)，其中n是对象的数目。在层次结构建立后，查询处理时间是，这里g是最低层网格单元的数目o(g)，通常远小于n。 * STING:统计信息网格缺点如下：如果粒度比较细，处理的代价会显著增加；但是，如果网格结构最低层的粒度太粗，将会降低聚类分析的质量；在构建一个父亲单元时没有考虑孩子单元和其相邻单元之间的关系，因此，结果簇的形状是isothetic，即所有的聚类边界或者是水平的，或者是竖直的，没有斜的分界线。尽管该技术有快速的处理速度，但可能降低簇的质量和精确性 * CLIQUE :一种类似于Apriori的子空间聚类方法 CLICQUE算法是基于网格的空间聚类算法，但它同时非常好地结合了基于密度的聚类算法思想，因此既可以像基于密度的方法发现任意形状的簇，又可以像基于网格的方法处理较大的多维数据集。 CLIQUE把每个维划分成不重叠的区间，从而把数据对象的整个嵌入空间划分成单元。它使用一个密度阀值识别稠密单元，一个单元是稠密的，如果映射到它的对象超过该密度阀值 * CLIQUE :一种类似于Apriori的子空间聚类方法算法概述：算法需要两个参数值，一个是网格的步长，一具是密度阈值。网格步长决定了空间的划分，而密度阈值用来定义密集网格。聚类思想：算法首先扫描所有网格，当发现第一个密集网格时，便以该网格开始扩展，扩展原则是若一个网格与已知密集区域内的网格邻接并且其自身也是密集的，则将该网格加入到该密集区域中、直到不再有这样的网格被发现为止。算法再继续扫描网格并重复上述过程，直至所有网格被遍历。以自动地发现最高维的子空间，高密度聚类存在于这些子空间中，并且它对元组的输入顺序不敏感，无需假设任何规范的数据分布。它随输入数据的大小线性地扩展，当数据的维数增加时具有良好的可伸缩性。 * CLIQUE :一种类似于Apriori的子空间聚类方法 CLIQUE识别候选搜索空间的主要策略是使用稠密单元关于维度的单调性。在子空间聚类的背景下，单调性陈述如下：一个k-维(k1)单元c至少有m个点，仅当c的每个(k-1)-维投影 (它是(k-1)-维单元)至少有m个点。如下图嵌入数据空间包括3个维： age,salary和vacation。例如，子空间age和salary中的一个二维单元包含m个点，仅当该单元在每个维上的投影都至少包含m个点。 * * Salary (10,000) 20 30 40 50 60 age 5 4 3 1 2 6 7 0 20 30 40 50 60 age 5 4 3 1 2 6 7 0 Vacation(week) age Vacation Salary 30 50 ? = 3 CLIQUE :一种类似于Apriori的子空间聚类方法相关定义：网格密度：网格中所包含的空间对象的数目。密集网格：给定刻度阈值σ,当网格g的密度≥σ时，网格g是密集网格，否则是非密集网格。网格刻度连通区域：设Grids为一个网格集合，若集合中的所有网格相互邻接且均是密集网格，则称Grid是网格密度连通区域。 * CLIQUE :一种类似于Apriori的子空间聚类方法 * CLIQUE :一种类似于Apriori的子空间聚类方法以二维空间为例说明该算法： σ=4 * 基于网格的聚类-总结优点:可能是非常有效的。给定每个属性的划分，单遍数据扫描就可以确定每个对象的网格单元和网格单元的计数。此外，尽管潜在的网格单元数量可能很高，但是只需要为非空单元创建网格。这样，定义网格、将每个对象指派到一个单元并计算每个单元的密度的时间复杂度和空间复杂度为O(m)，其中，m是点的个数。如果邻接的、已占据的单元可以有效的访问（例如，通过使用搜索树）则整个聚类过程将非常高效，例如具有O(mlogm)的时间复杂度。缺点：（1）像大多数基于密度的聚类算法一样、基于网格的聚类非常依赖于密度阈值的选择。（太高，簇可能或丢失；太低，本应分开的簇可能被合并）；（2）如果存在不同密度的簇和噪声，则也许不可能找到适合于数据空间所有部分的值；（3）随着维度的增加，网格单元个数迅速增加（指数增长）。即对于高维数据，基于网格的聚类倾向于效果很差。 * 算法评估聚类评估主要包括如下任务：估计聚类趋势确定数据集中的簇数测定聚类质量 * 算法评估—估计聚类趋势聚类趋势评估确定给定的数据集是否具有可以导致有意义的聚类的非随机结构。聚类要求数据的非均匀分布。 “如何评估