数据挖掘原理算法与应用教学作者梁亚声第6章节电子教案课件幻灯片.ppt

下载文档

16
0
约1.53万字
约 72页
2018-03-26 发布于广东
举报
版权申诉
保障服务

数据挖掘原理算法与应用教学作者梁亚声第6章节电子教案课件幻灯片.ppt

1、本文档共72页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

6.6 基于模型的聚类算法 6.6.2 COBWEB算法 COBWEB是一种简单、流行的增量概念聚类算法，它的输入对象用分类属性-值对来描述。它以一个分类树的形式创建层次聚类。如图显示的是一棵对动物数据的分类树。分类树的每个结点对应一个概念，包含该概念的一个概率描述，概述了被分在该结点下的对象。 6.6 基于模型的聚类算法 6.6.2 COBWEB算法 COBWEB算法的工作过程：它将对象增量地加入到分类树中。给定一个新的对象，COBWEB沿着一条适当的路径向下，修改计数，寻找可以分类该对象的最好结点。这个决策基于将对象临时置于每个结点，计算结果划分的分类效用。产生最高分类效用的方案应当是一处好的选择。COBWEB也对为给定对象创建一个新结点所产生的分类效用进行计算。它与基于现存结点的结果相比较，根据产生最高分类效用的划分，对象被置于一个已存在的类，或者为它创建一个新类。 6.6 基于模型的聚类算法 6.6.2 COBWEB算法优点：不需要用户输入参数来确定分类的个数，可以自动修正划分中类的数目。缺点：首先，它基于这样一个假设：在每个属性上的概率分布是彼此独立的。由于属性间经常是相关的，这个假设并不总是成立。其次，聚类的概率分布描述使得更新和存储类相当昂贵。因为时间和空间复杂度不只依赖于属性的数目，而且取决于每个属性的值的数目，所以当属性有大量的取值时情况尤其严重。而且，分类树对于偏斜的输入数据不是高度平衡的，它可能导致时间和空间复杂性的剧烈变化。 6.6 基于模型的聚类算法 6.6.3 SOM算法 SOM（Self-organizing feature maps，自组织特征映射）是一种竞争型无监督学习的神经网络方法。学习是基于如下的假设，即一个结点仅影响附近的结点或弧。在开始时随机分配初始权值，然后在学习过程中不断调整权值以产生好的聚类结果。在这个过程中，可以揭示隐藏在数据中的特征或模式，并且权值也会不断调整。自组织这个术语表明神经网络根据结点之间的相似性将结点组织成簇的能力，相距较近的结点会比相距较远的结点更相似。这也暗示了SOM在实际聚类过程中是如何工作的。随着迭代的进行，输出层的结点与输入结点相匹配，就会涌现出输出层结点的模式。 6.6 基于模型的聚类算法 6.6.3 SOM算法通常，初始时连接输入结点到竞争层的权是随机分配的，并且是归一化的数值。输出结点与输入向量的相似性通过两个向量的点积计算。给定输入元组X= x1，x2，…，xh ，从输出层到竞争层结点i的权为 w1i，w2i，…，whi 。X与结点i的相似性为：与输入结点最相似的竞争结点在竞争中取胜。根据竞争结果，到结点i及矩阵中相邻结点的权会增大，这就是训练阶段。给定结点i，用Ni表示结点i及矩阵中的相邻结点，因此，学习过程中的权值的变化公式为： 6.7 聚类评估聚类评估是估计在数据集上进行聚类的可行性和由聚类方法产生的结果的质量。聚类评估主要包括如下任务：估计聚类趋势确定数据集中的簇数测定聚类质量 6.7 聚类评估 6.7.1 估计聚类趋势聚类趋势评估可以确定给定的数据集是否具有可以导致有意义的聚类的非随机结构。直观地可以评估数据集被均匀分布产生的概率。这可以通过空间随机性的统计检验来实现，如一种简单但有效的统计量――霍普金斯统计量用于检验空间分布的变量的空间随机性。给定数据集D，它可以看做随机变量o的一个样本，为确定o在多大程度上不同于数据空间中的均匀分布，可按步骤计算出霍普金斯统计量： 6.7 聚类评估 6.7.2 确定簇数 6.7 聚类评估 6.7.3 测定聚类质量假设已评估了给定数据集的聚类趋势，可能已试着确定了数据集的簇数。现在可以使用一种或多种聚类方法来得到数据集的聚类。而要测定聚类质量，有几种方法可供选择。一般而言，根据是否有基准可用，这些方法可分成两类。这里，基准是一种理想的聚类，通常由专家构建。如果有可用的基准，则外在方法（extrinsic method）可以使用它。外在方法比较聚类结果和基准。如果没有基准可用，则可使用内在方法（intrinsic method），通过考虑簇的分离情况评估聚类的好坏。基准可以看做一种“簇标号”形式的监督。因此，外在方法又称监督方法，而内在方法是无监督方法。 * 6.4 基于密度的聚类算法基于密度的聚类算法的主要思想是：只要邻近区域的密度（对象或数据点的数目）超过某个阀值，就把它加到与之相近的聚类中。也就是说，对给定类中的每个数据点，在一个给定范围的区域中必