数据挖掘原理、_算法及应用第5章_聚类方法教材教学课件.ppt

下载文档 降价啦

39
0
约 286页
2018-03-14 发布于天津
举报
版权申诉
保障服务

数据挖掘原理、_算法及应用第5章_聚类方法教材教学课件.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

教学课件讲义PPT教学教案培训资料医学中小学上课资料

　　2．CLIQUE的优点与局限性 　　CLIQUE提供了一种搜索子空间发现簇的有效技术。由于这种方法基于源于关联分析的著名的先验原理，它的性质能够被很好地理解。CLIQUE具有用一小组不等式概括构成一个簇的单元列表的能力。　　CLIQUE的许多局限性与前面讨论过的其他基于网格的密度方法相同。其局限性类似于Apriori算法。具体地说，正如频繁项集可以共享项一样，CLIQUE发现的簇也可以共享对象。允许簇重叠可能大幅度增加簇的个数，并使得解释更加困难。CLIQUE的另一个局限性是和Apriori一样具有指数复杂度。特殊地，如果在较低的k值产生过多的稠密单元，则CLIQUE将遇到困难。提高密度阈值ξ可以减缓该问题。 5.6　神经网络聚类方法： SOM 　　神经网络方法起源于生物学的神经网络。概括地说，神经网络就是一组连接的输入／输出单元，其中每个连接都有一个与之相关联的权重。神经网络具有的一些特性在聚类分析中颇受欢迎。首先，神经网络是固有的并行和分布式处理结构。第二，神经网络通过调整它们的相互连接的权重来进行学习，从而更好地拟合数据。这使得它们能够把模式“规格化”或“原型化”，并且能够成为各种簇的特征(或属性)提取器。第三，修改后的神经网络能够处理包含数值变量和分类变量的特征向量。　　神经网络聚类方法将每个簇描述为一个标本(exemplar)。标本充当簇的“原型”，不一定对应一个特定的数据实例或对象。根据某种距离度量，新的对象可以分布到其标本最相似的簇。分配给簇的对象属性可以根据该簇的标本属性来预测。　　自组织特征映射(SelfOrganizing Feature Map，SOM)是最流行的神经网络聚类分析方法之一，有时候也称为Kohonen自组织特征映射(因其创建者Teuvo Kohonon而得名)或拓扑有序映射。SOM的目标是用低维(通常是二维或三维)目标空间的点来表示高维源空间中的所有点，尽可能地保持点间的距离和邻近关系(拓扑结构)。 　　人脑是由大量的神经元组成的，它们并非都起着同样的作用，处于空间不同部位的区域分工不同，各自对输入模式的不同特征敏感。　　大脑中分布着大量的协同作用的神经元群体，同时大脑网络又是一个复杂的反馈系统，既包括局部反馈，也包括整体反馈及化学交互作用，聚类现象对于大脑的信息处理起着重要作用。在大脑皮层中，神经元呈二维空间排列，其输入信号主要有两部分：一是来自感觉组织或其他区域的外部输入信号；二是同一区域的反馈信号(如图5-25所示)，形成信息交互。神经元之间的信息交互方式有很多种，然而邻近神经元之间的局部交互有一个共同的方式，就是侧向交互；即最相近的“邻元”(约小于0.5 mm)互相兴奋，较远的邻元(1～2 mm)互相抑制，更远的又是弱兴奋，这种局部交互形式可以形象地比喻为“墨西哥草帽”(如图5-26所示)。图5-25　带有反馈的神经网络示意图图5-26　邻近神经元之间的局部交互作用示意图　　T.Kohonen认为：神经网络中邻近的各个神经元通过侧向交互作用彼此相互竞争，自适应地发展成检测不同信号的特殊检测器，这就是自组织特征映射的含义。人工自组织映射与大脑映射有许多共同特性，通常又称做自组织映射神经网络或简称SOM网络。 　　人工二维自组织映射网络结构如图5-27所示。总体连接与二层前馈网络相似，输入层的每一个单元xi与输出层的每个yi相联。输出单元呈二维平面分布，单元之间的典型交互作用函数为简化“巴拿马草帽”，如图5-28(a)所示。 (5.39) 　　式中，dcj是输出单元c与j在神经元平面上的距离，R是交互作用半径。图5-27　自组织映射神经网络结构示意图　　利用网格进行聚类的方法有许多，但是大部分方法是基于密度的，至少部分地基于密度。因此，本节讨论的基于网格的聚类指的是使用网格的基于密度的聚类。算法5.7描述了基本的基于网格的聚类方法。　　算法5.7　基本的基于网格的聚类算法。 　　(1) 定义一个网格单元集。 　　(2) 将对象指派到合适的单元，并计算每个单元的密度。　　　　　(3) 删除密度低于指定的阈值τ的单元。 　　(4) 由邻近的稠密单元组形成簇。　　1. 定义网格单元 　　这是该算法的关键步骤，但是定义也最不严格，因为存在许多方法将每个属性的可能值分割成许多相邻的区间。对于连续属性，常用的方法有：　　　　　　(1) 将值划分成等宽的区间。如果该方法用于所有的属性，则结果网格单元都具有相同的体积，而单元的密度可以方便地定义为单元中点的个数。 　　(2) 等频率离散化方法。 　　(3) 对于连续属性，通常用于离散化属性的任何技术都可以使用。 　　(4) 使用聚类方法。无论采用哪种方法，网格的定义都对聚类的