实验5聚类.docxVIP

下载本文档

14
0
约2.28万字
约 16页
2017-03-24 发布于重庆
举报
版权申诉

实验5聚类.docx

1、本文档共16页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

实验5聚类

实验5 聚类聚类分析(亦称为群集分析)是对于统计数据分析的一门技术，在许多领域受到广泛应用，包括机器学习，数据挖掘，模式识别，图像分析以及生物信息。聚类把相似的样本通过静态分类的方法分成不同的子集，在同一个子集中的成员都有相似的一些属性，常见的包括在坐标系中更加短的空间距离等。WEKA中包含有12中内置的聚类算法，下面是其中部分算法的介绍。Cobweb 概念聚类的一种，不仅聚类，而且更进一步来找出每一个类的特征描述。该方法并不显式地产生数据集的聚类，而是用分类树的形式表现层次聚类。分类树的每一个节点表示了一个概念和对于这个概念(此概念总概了这个节点下的记录)的可能性描述。可能性描述包括形成这个类的可能以及在某个条件下类中记录的可能，表示为 P(Ai=Vij|Ck)，Ai=Vij 是个“属性-值”对，Ck 是类。CU (剪切值)的 Ai=Vij 表示了在条件 Ck 和没有条件 Ck 之下的偏差。 Cobweb 以递增的方式将记录加入到分类树中去，它对于一个新的记录计算它与以分好的类的匹配度，选择最好的节点将这个新的记录放进去。这个方法先将新记录暂时放到每一个已经形成的类中，然后计算每次放入后的 CU 值，值最大的就是要找的最匹配的类。Cobweb也计算将这个新的记录作为一个新的节点时 CU 的值，如果这个值比上述过程所得到的都要大的话，就建立一个新类。上述的操作对于的记录的顺序很敏感，Cobweb 利用两个操作来将这种敏感性降到最低，这就是合并和分裂的方法，当对一个新的记录进行分类的时候，两个最好的类就可能被合并，当然这些决定必须根据 CU 值来确定。 Cobweb基于这样一个假设：在每个属性上的概率分布是彼此独立的。但这个假设并不总是成立。分类树对于偏斜的输入数据不是高度平衡的，它可能导致时间和空间复杂性的剧烈变化。Cobweb不适用于聚类大型数据库的数据。DBScan DBScan其基本思想：只要领域中的密度(对象或者数据样本的数目)超过了某个阀值，就继续聚类。换句话说，对给定簇中的每个数据样本，在给定半径的邻域内至少必须包含规定的阀值个点。很明显，这样的方法可以用来过滤噪声数据，发现任意形状的簇。对于给定的样本，称在其半径e范围内的一个记录为这个记录的ε-邻居。如果一个记录的ε-邻居的个数超过最小值 MinPts，就将这个记录称为中心记录。一个数据集D，说一个样本p是样本q的直接密度可达记录，如果p是q的ε-邻居，并且q是个中心记录。给定一串样本点p1,p2….pn，p= p1,q= pn,假如对象pi从pi-1直接密度可达，就说p是q的密度可达，如果pq都是一个记录o的密度可达，就称pq密度相连。 DBScan首先扫描数据库，记录每一个样本的ε-邻居个数，如果一个记录的ε-邻居个数大于一个阈限值，就这个记录叫做中心记录。这样一个新的以这个记录为中心的类就产生了。接着，寻找这个记录的所有密度可达记录，这个过程可能会将一些类也合并过来，直到没有新的纪录加入为止。因为DBScan使用簇的基于密度的定义，因此它是相对抗噪声的，并且能处理任意形状和大小的簇。但是如果簇的密度变化很大，例如ABCD四个簇，AB的密度远大于CD，而且AB附近噪声的密度与簇CD的密度相当，当MinPs较大时，无法识别簇CD，簇CD和AB附近的噪声都被认为是噪声；当MinPs较小时，能识别簇CD，但AB跟其周围的噪声被识别为一个簇。EM 求参数极大似然估计的一种方法，它可以从非完整数据集中对参数进行估计。包含两个步骤：E步骤-计算期望值，M步骤-重新计算参数值E-步：计算完整数据的对数似然函数的期望，记为：Q(Θ|Θ (t) ) = E{Lc(Θ;Z)|X;Θ(t) }；M-步：通过最大化Q(Θ |Θ(t) ) 来获得新的Θ 直观地理解EM算法，它也可被看作为一个逐次逼近算法：事先并不知道模型的参数，可以随机的选择一套参数或者事先粗略地给定某个初始参数λ0 ，确定出对应于这组参数的最可能的状态，计算每个训练样本的可能结果的概率，在当前的状态下再由样本对参数修正，重新估计参数λ ，并在新的参数下重新确定模型的状态，这样，通过多次的迭代，循环直至某个收敛条件满足为止，就可以使得模型的参数逐渐逼近真实参数。HierarchicalClusterer 包括分裂（自顶向下）与合并（自底向上）两种形式。层次聚类算法产生一个嵌套聚类的层次，算法最多包含N步，在第t步，执行的操作就是在前t-1步的聚类基础上生成新聚类。缺点是当在算法开始阶段，若出现聚类错误，那么这种错误将一直会被延续，无法修改。SimpleKMeans 对于输入量 k，将 n 个数据对象划分为 k 个聚类，使得所获得的聚类满足：同一聚类中的对象相似度较高；而不同聚类中的对象相似度较小。查看基本