- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
教学课件讲义PPT教学教案培训资料医学中小学上课资料
2.CLIQUE的优点与局限性 CLIQUE提供了一种搜索子空间发现簇的有效技术。由于这种方法基于源于关联分析的著名的先验原理,它的性质能够被很好地理解。CLIQUE具有用一小组不等式概括构成一个簇的单元列表的能力。 CLIQUE的许多局限性与前面讨论过的其他基于网格的密度方法相同。其局限性类似于Apriori算法。具体地说,正如频繁项集可以共享项一样,CLIQUE发现的簇也可以共享对象。允许簇重叠可能大幅度增加簇的个数,并使得解释更加困难。CLIQUE的另一个局限性是和Apriori一样具有指数复杂度。特殊地,如果在较低的k值产生过多的稠密单元,则CLIQUE将遇到困难。提高密度阈值ξ可以减缓该问题。 5.6 神经网络聚类方法: SOM 神经网络方法起源于生物学的神经网络。概括地说,神经网络就是一组连接的输入/输出单元,其中每个连接都有一个与之相关联的权重。神经网络具有的一些特性在聚类分析中颇受欢迎。首先,神经网络是固有的并行和分布式处理结构。第二,神经网络通过调整它们的相互连接的权重来进行学习,从而更好地拟合数据。这使得它们能够把模式“规格化”或“原型化”,并且能够成为各种簇的特征(或属性)提取器。第三,修改后的神经网络能够处理包含数值变量和分类变量的特征向量。 神经网络聚类方法将每个簇描述为一个标本(exemplar)。标本充当簇的“原型”,不一定对应一个特定的数据实例或对象。根据某种距离度量,新的对象可以分布到其标本最相似的簇。分配给簇的对象属性可以根据该簇的标本属性来预测。 自组织特征映射(SelfOrganizing Feature Map,SOM)是最流行的神经网络聚类分析方法之一,有时候也称为Kohonen自组织特征映射(因其创建者Teuvo Kohonon而得名)或拓扑有序映射。SOM的目标是用低维(通常是二维或三维)目标空间的点来表示高维源空间中的所有点,尽可能地保持点间的距离和邻近关系(拓扑结构)。 人脑是由大量的神经元组成的,它们并非都起着同样的作用,处于空间不同部位的区域分工不同,各自对输入模式的不同特征敏感。 大脑中分布着大量的协同作用的神经元群体,同时大脑网络又是一个复杂的反馈系统,既包括局部反馈,也包括整体反馈及化学交互作用,聚类现象对于大脑的信息处理起着重要作用。在大脑皮层中,神经元呈二维空间排列,其输入信号主要有两部分: 一是来自感觉组织或其他区域的外部输入信号; 二是同一区域的反馈信号(如图5-25所示),形成信息交互。神经元之间的信息交互方式有很多种,然而邻近神经元之间的局部交互有一个共同的方式,就是侧向交互; 即最相近的“邻元”(约小于0.5 mm)互相兴奋,较远的邻元(1~2 mm)互相抑制,更远的又是弱兴奋,这种局部交互形式可以形象地比喻为“墨西哥草帽”(如图5-26所示)。 图5-25 带有反馈的神经网络示意图 图5-26 邻近神经元之间的局部交互作用示意图 T.Kohonen认为: 神经网络中邻近的各个神经元通过侧向交互作用彼此相互竞争,自适应地发展成检测不同信号的特殊检测器,这就是自组织特征映射的含义。人工自组织映射与大脑映射有许多共同特性,通常又称做自组织映射神经网络或简称SOM网络。 人工二维自组织映射网络结构如图5-27所示。总体连接与二层前馈网络相似,输入层的每一个单元xi与输出层的每个yi相联。输出单元呈二维平面分布,单元之间的典型交互作用函数为简化“巴拿马草帽”,如图5-28(a)所示。 (5.39) 式中,dcj是输出单元c与j在神经元平面上的距离,R是交互作用半径。 图5-27 自组织映射神经网络结构示意图 利用网格进行聚类的方法有许多,但是大部分方法是基于密度的,至少部分地基于密度。因此,本节讨论的基于网格的聚类指的是使用网格的基于密度的聚类。算法5.7描述了基本的基于网格的聚类方法。 算法5.7 基本的基于网格的聚类算法。 (1) 定义一个网格单元集。 (2) 将对象指派到合适的单元,并计算每个单元的密度。 (3) 删除密度低于指定的阈值τ的单元。 (4) 由邻近的稠密单元组形成簇。 1. 定义网格单元 这是该算法的关键步骤,但是定义也最不严格,因为存在许多方法将每个属性的可能值分割 成许多相邻的区间。对于连续属性,常用的方法有: (1) 将值划分成等宽的区间。如果该方法用于所有的属性,则结果网格单元都具有相同的体积,而单元的密度可以方便地定义为单元中点的个数。 (2) 等频率离散化方法。 (3) 对于连续属性,通常用于离散化属性的任何技术都可以使用。 (4) 使用聚类方法。无论采用哪种方法,网格的定义都对聚类的
文档评论(0)