聚类算法KeYan.ppt

下载文档 降价啦

4
0
约2.01万字
约 66页
2018-06-02 发布于天津
举报
版权申诉
保障服务

聚类算法KeYan.ppt

1、本文档共66页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

聚类算法KeYan

* DMKD Sides By MAO * SOM神经网络 SOM神经网络是一种基于模型的聚类方法。SOM神经网络由输入层和竞争层组成。输入层由N个输入神经元组成，竞争层由m?m = M个输出神经元组成，且形成一个二维平面阵列。输入层各神经元与竞争层各神经元之间实现全互连接。该网络根据其学习规则，通过对输入模式的反复学习，捕捉住各个输入模式中所含的模式特征，并对其进行自组织，在竞争层将聚类结果表现出来，进行自动聚类。竞争层的任何一个神经元都可以代表聚类结果。 * DMKD Sides By MAO * SOM神经网络(续) 图1给出了SOM神经网络基本结构，图2给出了结构中各输入神经元与竞争层神经元j的连接情况。图1SOM网络基本结构图2输入神经元与竞争层神经元j的连接情况设网络的输入模式为 k=1,2,…, p；竞争层神经元向量为Bj=(bj1,bj2,…,bjm)，j =1,2,…,m；其中Ak为连续值，Bj为数字量。网络的连接权为{wij} i=1,2,…,N； j=1,2,…,M。 SOM网络寻找与输入模式Ak最接近的连接权向量Wg=(wg1,wg2,…,wgN)，将该连接权向量Wg进一步朝与输入模式Ak接近的方向调整，而且还调整邻域内的各个连接权向量Wj，j?Ng(t)。随着学习次数的增加，邻域逐渐缩小。最终得到聚类结果。 SOM类似于大脑的信息处理过程，对二维或三维数据的可视是非常有效的。SOM网络的最大局限性是，当学习模式较少时，网络的聚类效果取决于输入模式的先后顺序；且网络连接权向量的初始状态对网络的收敛性能有很大影响。 * DMKD Sides By MAO * 第五章聚类方法内容提要聚类方法概述划分聚类方法层次聚类方法密度聚类方法其它聚类方法 * DMKD Sides By MAO * Thank you !!! Copyright ? 2001, 2004, Andrew W. Moore K-means continues… Copyright ? 2001, 2004, Andrew W. Moore K-means continues… Copyright ? 2001, 2004, Andrew W. Moore K-means continues… Copyright ? 2001, 2004, Andrew W. Moore K-means terminates * DMKD Sides By MAO * k-means算法的性能分析主要优点：是解决聚类问题的一种经典算法，简单、快速。对处理大数据集，该算法是相对可伸缩和高效率的。当结果簇是密集的，它的效果较好。主要缺点在簇的平均值被定义的情况下才能使用，可能不适用于某些应用。必须事先给出k（要生成的簇的数目），而且对初值敏感，对于不同的初始值，可能会导致不同结果。不适合于发现非凸面形状的簇或者大小差别很大的簇。而且，它对于“躁声”和孤立点数据是敏感的。 * DMKD Sides By MAO * k-means的几种改进方法 k-mode 算法：实现对离散数据的快速聚类，保留了k-means算法的效率同时将k-means的应用范围扩大到离散数据。 k-prototype算法：可以对离散与数值属性两种混合的数据进行聚类，在k-prototype中定义了一个对数值与离散属性都计算的相异性度量标准。 k-中心点算法k -means算法对于孤立点是敏感的。为了解决这个问题，不采用簇中的平均值作为参照点，可以选用簇中位置最中心的对象，即中心点作为参照点。这样划分方法仍然是基于最小化所有对象与其参照点之间的相异度之和的原则来执行的。 * DMKD Sides By MAO * PAM算法基本思想 PAM作为最早提出的k-中心点算法之一，它选用簇中位置最中心的对象作为代表对象，试图对n个对象给出k个划分。代表对象也被称为是中心点，其他对象则被称为非代表对象。最初随机选择k个对象作为中心点，该算法反复地用非代表对象来代替代表对象，试图找出更好的中心点，以改进聚类的质量。在每次迭代中，所有可能的对象对被分析，每个对中的一个对象是中心点，而另一个是非代表对象。对可能的各种组合，估算聚类结果的质量。一个对象Oi被可以产生最大平方-误差值减少的对象代替。在一次迭代中产生的最佳对象集合成为下次迭代的中心点。 * DMKD Sides By MAO * PAM算法基本思想(续) 为了判定一个非代表对象Oh是否是当前一个代表对象Oi的好的替