1 模式识别原理课件-第1、2章绪论聚类分析【统计学经典】.ppt

下载文档 降价啦

3
0
约1.25万字
约 77页
2018-05-23 发布于四川
举报
版权申诉
保障服务

1 模式识别原理课件-第1、2章绪论聚类分析【统计学经典】.ppt

1、本文档共77页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

④ 返回第②步，以Z1(3)， Z2(3)为中心进行聚类。 ② 以新的聚类中心分类，求得的分类结果与前一次迭代结果相同： ③ 计算新聚类中心向量值，聚类中心与前一次结果相同，即： ④ ，故算法收敛，得聚类中心为结果图示：图2.10 K-均值算法聚类结果 X1 X4 X3 X5 X8 X9 X7 X10 X2 X6 x1 x2 1 3 5 7 9 1 3 5 7 9 0 X11 X12 X13 X14 X15 X16 X17 X18 X19 X20 上述K-均值算法，其类型数目假定已知为K个。当K未知时，可以令K逐渐增加，此时J j 会单调减少。最初减小速度快，但当 K 增加到一定数值时，减小速度会减慢，直到K =总样本数N 时，Jj = 0。Jj－K关系曲线如下图： 3、聚类准则函数Jj与K的关系曲线 Jj A 1 3 5 7 2 4 6 0 8 10 9 K 曲线的拐点 A 对应着接近最优的K值（J 值减小量、计算量以及分类效果的权衡）。并非所有的情况都容易找到关系曲线的拐点。迭代自组织的数据分析算法可以确定模式类的个数K 。 2.5.2 迭代自组织的数据分析算法 (iterative self-organizing data analysis techniques algorithm,ISODATA) 算法特点加入了试探性步骤，组成人机交互的结构；可以通过类的自动合并与分裂得到较合理的类别数。相似：聚类中心的位置均通过样本均值的迭代运算决定。相异： K-均值算法的聚类中心个数不变； ISODATA的聚类中心个数变化。与K-均值算法比较： 1．算法简介基本思路：（1）选择初始值——包括若干聚类中心及一些指标。可在迭代运算过程中人为修改，据此将N个模式样本分配到各个聚类中心去。（3）聚类后的处理：计算各类中的距离函数等指标，按照给定的要求，将前次获得的聚类集进行分裂或合并处理，以获得新的聚类中心，即调整聚类中心的个数。（4）判断结果是否符合要求：符合，结束；否则，回到（2）。（2）按最近邻规则进行分类。算法共分十四步：第一 ~ 六步：预选参数，进行初始分类。为合并和分裂准备必要的数据。第七步：决定下一步是进行合并还是进行分裂。第八 ~ 十步：分裂算法。第十一 ~ 十三步：合并算法。第十四步：决定算法是否结束。 2．算法描述设有N个模式样本X1，X2，…，XN 。预选参数，进行初始分类。第一步：预选NC个聚类中心， NC也是聚类过程中实际的聚类中心个数。预选指标： K：希望的聚类中心的数目。 θN：每个聚类中应具有的最少样本数。若样本少于θN ，则该类不能作为一个独立的聚类，应删去。 θS ：一个聚类域中样本距离分布的标准差阈值。标准差向量的每一分量反映样本在特征空间的相应维上，与聚类中心的位置偏差（分散程度）。要求每一聚类内，其所有分量中的最大分量应小于θS，否则该类将被分裂为两类。 θC ：两聚类中心之间的最小距离。若两类中心之间距离小于 θC，则合并为一类。 L：在一次迭代中允许合并的聚类中心的最大对数。 I：允许迭代的次数。第二步：把N个样本按最近邻规则分配到NC个聚类中。若则第三步：若Sj中的样本数NjθN ，则取消该类，并且NC减去1。第四步：修正各聚类中心值。第五步：计算Sj类的类内平均距离。第六步：计算总体平均距离，即全部样本到各自聚类中心距离的平均距离。 θN：每类应具有的最少样本数。 3) 如果迭代的次数是偶数，或NC≥2K，即聚类中心数目大于或等于希望数的两倍，则跳到第十一步(合并)。否则进入第八步 (分裂)。第七步：判决是进行分裂还是进行合并，决定迭代步骤等。判断分裂还是合并。 1) 如迭代已达I次(最后一次)，置θC=0 ，跳到第十一步(合并)。 2) 若NC≤K/2，即聚类中心小于或等于希望数的一半

您可能关注的文档

文档评论（0）

好文精选 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

1 模式识别原理课件-第1、2章绪论聚类分析【统计学经典】.ppt