- 1、本文档共73页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
寻找“自然的”类 §9.4 动态聚类法 动态聚类法的基本思想是,选择一批凝聚点或给出一个初始的分类,让样品按某种原则向凝聚点凝聚,对凝聚点进行不断的修改或迭代,直至分类比较合理或迭代稳定为止。类的个数k可以事先指定,也可以在聚类过程中确定。选择初始凝聚点(或给出初始分类)的一种简单方法是采用随机抽选(或随机分割)样品的方法。 动态聚类法有许多种方法,本节中,只讨论一种比较流行的动态聚类法——k均值法。k均值法是由麦奎因(MacQueen,1967)提出并命名的一种算法。 k均值法的基本步骤 (1)选择k个样品作为初始凝聚点,或者将所有样品分成k个初始类,然后将这k个类的重心(均值)作为初始凝聚点。 (2)对除凝聚点之外的所有样品逐个归类,将每个样品归入凝聚点离它最近的那个类(通常采用欧氏距离),该类的凝聚点更新为这一类目前的均值,直至所有样品都归了类。 (3)重复步骤(2),直至所有的样品都不能再分配为止。 最终的聚类结果在一定程度上依赖于初始凝聚点或初始分类的选择。经验表明,聚类过程中的绝大多数重要变化均发生在第一次再分配中。 例9.4.1 对例9.3.1采用k均值法聚类,指定k=2,具体步骤如下: (1) 随意将这些样品分成 两类,则这两个初始类的均值分别是5和 。 (2)计算1到两个类(均值)的欧氏距离 由于1到 的距离小于到 的距离,因此1不用重新分配,计算6到两个类的距离 故6应重新分配到 中,修正后的两个类为 ,新的类均值分别为 。计算 结果8重新分配到 中,两个新类为 , ,其类均值分别为1和 。再计算 重新分配2到 中,两个新类为 ,其类均值分别为 。 (3)再次计算每个样品到类均值的距离,结果列于表9.4.1。 最终得到的两个类为{1,2}和{6,8,11}。 表9.4.1 各样品到类均值的距离 输出9.4.1 观测所归类及到最终凝聚点的距离 输出9.4.2 聚类小结 输出9.4.3 各变量的类内均值及标准差 例9.4.2 对例9.3.3使用k均值法进行聚类,聚类前对各变量作标准化变换,聚类结果如下: 第Ⅰ类:北京、上海和浙江。 第Ⅱ类:广东。 第Ⅲ类:天津、江苏、福建、山东、湖南、广西、 重庆、四川和云南。 第Ⅳ类:河北、山西、内蒙古、辽宁、吉林、黑龙 江、安徽、江西、河南、湖北、海南、贵 州、陕西、甘肃、青海、宁夏和新疆。 第Ⅴ类:西藏。 * * * 其中G6= G1∪G2 表9.3.4 D(3) G6 G8 G6 0 G8 4 0 图9.3.2 最短距离法树形图 二、最长距离法 类与类之间的距离定义为两类最远样品间的距离,即 图9.3.3 最长距离法: DKL=d15 最长距离法与最短距离法的并类步骤完全相同,只是类间距离的递推公式有所不同。 递推公式: 对例9.3.1采用最长距离法,其树形图如图9.3.4所示,它与图9.3.2有相似的形状,但并类的距离要比图9.3.2大一些,仍分成两类为宜。 图9.3.4 最长距离法树形图 异常值的影响 最长距离法容易被异常值严重地扭曲,一个有效的方法是将这些异常值单独拿出来后再进行聚类。 三、类平均法 类平均法(average linkage method)有两种定义,一种定义方法是把类与类之间的距离定义为所有样品对之间的平均距离,即定义GK和GL之间的距离为 其中nK和nL分别为类GK和GL的样品个数,dij为GK中的样品i与GL中的样品j之间的距离,如图9.3.6所示。容易得到它的一个递推公式: 图9.3.6 类平均法:DKL=(d13+d14+d15+d23+d24+d25)/ 6 另一种定义方法是定义类与类之间的平方距离为样品对之间平方距离的平均值,即 它的递推公式为 类平均法较好地利用了所有样品之间的信息,在很多情况下它被认为是一种比较好的系统聚类法。 对例9.3.1采用(使用平方距离的)类平均法进行聚类。一开始将D(0)的每个元素都平方,并记作 。 G1 G2 G3 G4 G5 G1 0 G2 1 0 G3 25 16 0 G4 49 36 4 0 G5 100 81 25 9 0 表9.3.6 G6 G3 G4 G5 G6 0 G3 20.5 0 G4 42.5 4 0 G5 90.5 25 9 0 表9.3.7 G6 G7 G5 G6 0 G7 31.5 0 G5 90.5 17 0 表9.3.8 G6
您可能关注的文档
- 《数据结构》(C语言版)(精品·公开课件).ppt
- 《数据结构》(C语言版)第二章 线性表(精品·公开课件).ppt
- 《数据结构》(C语言版)第二章(精品·公开课件).ppt
- 《数据结构》(C语言版)第六章_树和二叉树(精品·公开课件).ppt
- 《数据结构》(C语言版)第一章 绪论(精品·公开课件).ppt
- 《数据结构C语言版》---第01章(精品·公开课件).ppt
- 《数据结构C语言版》---第02章(精品·公开课件).ppt
- 《数据结构C语言版》---第03章【讲解】(精品·公开课件).ppt
- 《数据结构——C语言描述》第1章概论(精品·公开课件).ppt
- 《数据结构C语言版》严蔚敏 第一章_基础知识(精品·公开课件).ppt
文档评论(0)