ch8聚类数据挖掘技术.pptVIP

下载本文档

1
0
约1.7万字
约 67页
2019-04-29 发布于安徽
举报
版权申诉

ch8聚类数据挖掘技术.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于模型的聚类方法为每个簇假定了一个模型，寻找数据对给定模型的最佳拟合。一个基于模型的算法可能通过构建反映数据点空间分布的密度函数来定位聚类。基于模型的聚类方法主要有统计学和神经网络两种。 (5) 模型聚类 SOM神经网络是一种基于模型的聚类方法。SOM神经网络由输入层和竞争层组成。输入层由N个输入神经元组成，竞争层由m?m = M个输出神经元组成，且形成一个二维平面阵列。输入层各神经元与竞争层各神经元之间实现全互连接。该网络根据其学习规则，通过对输入模式的反复学习，捕捉住各个输入模式中所含的模式特征，并对其进行自组织，在竞争层将聚类结果表现出来，进行自动聚类。竞争层的任何一个神经元都可以代表聚类结果。 SOM神经网络图1给出了SOM神经网络基本结构，图2给出了结构中各输入神经元与竞争层神经元j的连接情况。图1 SOM网络基本结构图2 输入神经元与竞争层神经元j的连接情况设网络的输入模式为 k=1,2,…, p；竞争层神经元向量为Bj=(bj1,bj2,…,bjm)，j =1,2,…,m；其中Ak为连续值，Bj为数字量。网络的连接权为{wij} i=1,2,…,N； j=1,2,…,M。 SOM网络寻找与输入模式Ak最接近的连接权向量Wg=(wg1,wg2,…,wgN)，将该连接权向量Wg进一步朝与输入模式Ak接近的方向调整，而且还调整邻域内的各个连接权向量Wj，j?Ng(t)。随着学习次数的增加，邻域逐渐缩小。最终得到聚类结果。 SOM类似于大脑的信息处理过程，对二维或三维数据的可视是非常有效的。SOM网络的最大局限性是，当学习模式较少时，网络的聚类效果取决于输入模式的先后顺序；且网络连接权向量的初始状态对网络的收敛性能有很大影响。服务理念中的“点点” ◆理解多一点真情浓一点 ◆学习勤一点品质高一点 ◆理由少一点效率高一点 ◆处理问题灵活点工作过程用心点 ◆对待同事宽容点互相协作快乐点图（a）、（b）、（c）分别表示了用C、D、E替换B的情况和相应的代价。 C替换B, TCBC=-2 (b) D替换B, TCBD=-2 (c) E替换B, TCBE=-2 图替换中心点B 通过上述计算，已经完成了PAM算法的第一次迭代。在下一迭代中，将用其他的非中心点{A、D、E}替换中心点{B、C}，找出具有最小代价的替换。一直重复上述过程，直到代价不再减小为止。 PAM算法特点比k-means健壮，但对于大数据集效率不高。当存在 “噪声”和离群数据时，k-中心点方法比k均值方法更健壮，这是因为中心点不像平均值那样易被极端数据影响。 k-中心点方法的执行代价比k-平均高。改进算法 CLARA(Clustering Large Applications),1990 用实际数据的抽样来代替整个数据，然后再在这些抽样的数据上利用K-medoids算法得到最佳的中心点。如果样本是以非随机的方式选取，它应当足以代替原来的数据集合。从中选出的代表对象（中心点）很可能与从整个数据集合选出的代表相似。改进算法 CLARANS (“随机化的”CLARA)，1994 利用多次不同抽样来改进CLARA。其聚类过程可以被描述为对一个图的收索过程，图中的每一个节点都是一个潜在的解，即k个中心点的集合。在替换了一个中心点后得到的聚类结果被当成是前聚类结果的邻居。如果一个更好的邻居被发现，也就是说它有更小的平方误差值，clarans移到该邻居节点，处理过程重新开始，如果没有发现更好的邻居，则达到局部最优。 (2) 层次聚类方法层次聚类方法对给定的数据集进行层次的分解，直到某种条件满足为止。具体又可分为：凝聚的层次聚类：一种自底向上的策略，首先将每个对象作为一个簇，然后合并这些原子簇为越来越大的簇，直到某个终结条件被满足。分裂的层次聚类：采用自顶向下的策略，它首先将所有对象置于一个簇中，然后逐渐细分为越来越小的簇，直到达到了某个终结条件。层次凝聚的代表是AGNES算法。层次分裂的代表是DIANA算法。 AGNES算法 AGNES (AGglomerative NESting)算法最初将每个对象作为一个簇，然后这些簇根据某些准则被一步步地合并。两个簇间的相似度由这两个不同簇中距离最近的数据点对的相似度来确定。聚类的合并过程反复进行直到所有的对象最终满足簇数目。算法 AGNES（自底向上凝聚算法）输入：包含n个对象的数据库，终止条件簇