聚类分析优秀教案.pptVIP

下载本文档

144
0
约8.15千字
约 66页
2018-12-05 发布于江苏
举报
版权申诉

聚类分析优秀教案.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

聚类分析优秀教案

层次聚类法的树状表示类间距离阈值增大，分类变粗。五、动态聚类法两种常用算法： * K-均值算法(或C-均值算法) * 迭代自组织的数据分析算法(ISODATA, iterative self-organizing data analysis techniques algorithm) 判断合理性选初始中心聚类合理不合理输出修改图9 动态聚类法的基本思路 K-均值算法的聚类准则：聚类中心Zj的选择应使准则函数J极小，即使Jj的值极小。 1 K-均值算法基于使聚类准则函数最小化，准则函数：聚类集中每一样本点到该类中心的距离平方和。对于第j个聚类集，准则函数定义为 Sj：第j个聚类集（域），聚类中心为Zj ； Nj：第j个聚类集Sj中所包含的样本个数。对所有K个模式类有应有即可解得上式表明，Sj类的聚类中心应选为该类样本的均值。 1）算法描述括号内序号：迭代运算的次序号。（1）任选K个初始聚类中心：Z1(1)， Z2(1)，…， ZK(1) （2）按最小距离原则将其余样本分配到K个聚类中心中的某一个，即：若，则注意：k——迭代运算次序号；K——聚类中心的个数。 Nj：第j类的样本数。（3）计算各个聚类中心的新向量值：（4）如果，则回到（2），将模式样本逐个重新分类，重复迭代计算。这里：分别计算K个聚类中的样本均值向量，故称K-均值算法。，算法收敛，计算完毕。如果聚类过程中，聚类中心位置或个数发生变化。 “动态”聚类法？ 2）算法讨论结果受到所选聚类中心的个数和其初始位置，以及模式样本的几何性质及读入次序等的影响。实际应用中需要试探不同的K值和选择不同的聚类中心起始值。例：已知20个模式样本如下，试用K-均值算法分类。解：① 取K=2，并选： ② 计算距离，聚类：：：：： ……，可得到： ③ 计算新的聚类中心： ④ 判断：，故返回第②步。 ② 从新的聚类中心得：： ┋ ：有： ③ 计算聚类中心： ④ 返回第②步，以Z1(3)， Z2(3)为中心进行聚类。 ② 以新的聚类中心分类，求得的分类结果与前一次迭代结果相同： ③ 计算新聚类中心向量值，聚类中心与前一次结果相同，即： ④ ，故算法收敛，得聚类中心为结果图示：图10 K-均值算法聚类结果 X1 X4 X3 X5 X8 X9 X7 X10 X2 X6 x1 x2 1 3 5 7 9 1 3 5 7 9 0 X11 X12 X13 X14 X15 X16 X17 X18 X19 X20 上述K-均值算法，其类型数目假定已知为K个。当K未知时，可以令K逐渐增加，此时J j 会单调减少。最初减小速度快，但当 K 增加到一定数值时，减小速度会减慢，直到K =总样本数N 时，Jj = 0。Jj－K关系曲线如下图： 3）聚类准则函数Jj与K的关系曲线 Jj A 1 3 5 7 2 4 6 0 8 10 9 K 曲线的拐点 A 对应着接近最优的K值（J 值减小量、计算量以及分类效果的权衡）。并非所有的情况都容易找到关系曲线的拐点。迭代自组织的数据分析算法可以确定模式类的个数K 。 2 迭代自组织的数据分析算法 (iterative self-organizing data analysis techniques algorithm,ISODATA) 算法特点加入了试探性步骤，组成人机交互的结构；可以通过类的自动合并与分裂得到较合理的类别数。相似：聚类中心的位置均通过样本均值的迭代运算决定。相异： K-均值算法的聚类中心个数不变； ISODATA的聚类中心个数变化。与K-均值算法比较： 1）算法简介基本思路：（1）选择初始值——包括若干聚类中心及一些指标。可在迭代运算过程中人为修改，据此将N个模式样本分配到各个聚类中心去。（3）聚类后的处理：计算各类中的距离函数等指标，按照给定的要求，将前次获得的聚类集进行分