- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
系统聚类法及其应用研究
2014 年 6 月第 28 卷第 2 期阴 山 学 刊YINSHAN ACADEMIC JOURNALJun. 2014 Vo1. 28No. 2系统聚类法及其应用研究*田兵( 包头师范学院 《阴山学刊》编辑部,内蒙古 包头 014030)摘 要: 本文介绍了系统聚类法的基本思想和常用方法以及优缺点,然后举例说明了其在具体问题中的应用。关键词: 聚类分析; 系统聚类法; 最短距离法、最长距离法、中间距离法、类平均法、重心法、离差平方和法 中图分类号: O213 文献标识码: A 文章编号: 1004 - 1869( 2014) 02 - 0011 - 06 DOI:10.13388/j.cnki.ysajs.2014.02.003聚类分析是将样本进行分类的一种统计方法。 它是根据样本数据计算样本之间的距离 ( 相似程式为:DMJ =mini∈GM,j∈GJdij度) ,将距离较近的样本归为同一类,不同类别的样本距离相对较远。聚类分析的内容包含十分广泛,= min{mini∈GK,j∈GJdij , mini∈GL,j∈GJdij }有系统聚类法、动态聚类法、分裂法、最优分割法、模 糊聚类法、图论聚类法、聚类预报等多种方法。系统聚类法也称层次聚类,是聚类分析许多方 法中用的最多的一种,其基本思想是: 开始将 n 个样= min{ DKL ,DLJ } .1. 2最长距离法定义类与类之间的距离为两类最远样本间的距 离,即本各自作为一类,并规定样本之间的距离和类与类DKL =maxi∈Gk,j∈GLdij之间的距离,然后将距离最近的两类合并成一个新称这种系统聚类法为最短距离法。类,计算新类与其他类的距离; 重复进行两个最近类 的合并,每次减少一类,直至所有的样本合并为一当某步骤类 GK 和 GL 类 GJ 的距离为:合并为 GM 后,则 GM与任一类。根据所定义的类与类的距离,系统聚类法可以DMJ= max{ DKL,DLJ } .分为最短距离法、最长距离法、中间距离法、类平均法、重心法、离差平方和法。1. 3中间距离法定义类与类之间的距离取介于上述最短距离和1常用的系统聚类法最长距离的中间距离。设某一步将 GK和 GL合并为1. 1最短距离法GM ,对于任一类 GJ 考虑由 DKL,DLJ,DKJ为边长组成定义类与类之间的距离为两类最近样本间的距离,即的三角形,取 DKL 边的中线作为 DMJ ,由初等平面几何可知,DKL =mini∈Gk,j∈GLdijMJ = 1 2D+KJ 1 2D-LJ 1 2DKLD2称这种系统聚类法为最短距离法。其中用 dij. 表示第 i 个样本与第 j 个样本的距离,G1 ,G2 ,… 表示类,DKL 表示 Gk 与 GL 的距离。当某步骤类 GK 和 GL 合并为 GM 后,按最短距离 法计算新类 GM 与其他类 GJ 的类间距离,其递推公224称这种系统聚类法为中间距离法。1. 4类平均法类平均法有两种定义,一种定义方法是把类与 类之间的距离定义为所有样本对之间的平均距离,*收稿日期: 2014 - 04 - 12作者简介: 田兵( 1982 - ) ,男,山西五台人,编辑,理学硕士,研究方向: 数理统计。即定义 GK 和 GL 之间的距离为 1 GK 和 GL 这两类相距较近,则合并后所增加的离差平方和 WM —WK —WL 应较小,否则较大。于是定义 GKnDKL =K∑nL i∈Gk,j∈GLdij和 GL 之间的平方距离为其中 nK 和 nL 分别为 GK 和 GL 的样本个数,dij 为 GK 中样本 i 与 GL 中样本 j 之间的距离。它的递推公式为: 1 KL = WM - WK - WL ,D2这种系统聚类法称为离差平方和法。它的递推公式nDMJ =M∑nJ i∈GM,j∈GJdij为2nJ + nK 2nJ + nL 2nJ2=1 (∑dij +∑ dij )DMJ =nJ + nMDKJ +nJ+ nMDLJ -nJ+ n DKL ,nM nJnKi∈GK,j∈GJnLi∈GL,j∈GJGK 和 GL 之间的平方距离也可以写成MM= n DKJ + nDLJD2nK nL 珋珋 T 珋珋另一种定义方法是定义类与类之间的平方距离KL =( xK - xL )nM( xK - xL )为样本对之间平方距离的平均值,即可见,这个距离公式与重心法的距离公式只相差一个常数。重心法的类间距与两类的样本数无D212nnKL =K∑L i∈GK,j∈GLdij ,关,而离差平方和法的类间距与两类的样本数有较它的递推公式为大的关系,两个大类倾向于有较大的距离,因而不宜MMD2nK 2n
您可能关注的文档
- 第二章化学镀镍机理.ppt
- 第二章园林植物的引种驯化.ppt
- 第一章 老板也在为我们工作 第一节 公司是员工生存和发展的平台 公司和.doc
- 第二讲 SPSS简介及数据编码录入.ppt
- 第二讲 电影的基本元素.ppt
- 第二章第二节二形体的明暗规律.ppt
- 第二课堂实践育人体系的构建与实践.doc
- 第五媒体无线营销下的分众传媒与定向传播.ppt
- 第五章 交通事故现场勘查.ppt
- 第二课第一节坚强面对人生.ppt
- 金融产品2024年投资策略报告:积极适应市场风格,行为金融+机器学习新发现.pdf
- 交运物流2024年度投资策略:转型十字路,峰回路又转(2023120317).pdf
- 建材行业2024年投资策略报告:板块持续磨底,重点关注需求侧复苏.pdf
- 宏观2024年投资策略报告:复苏之路.pdf
- 光储氢2024年投资策略报告:复苏在春季,需求的非线性增长曙光初现.pdf
- 公用环保2024年投资策略报告:电改持续推进,火电盈利稳定性有望进一步提升.pdf
- 房地产2024年投资策略报告:聚焦三大工程,静待需求修复.pdf
- 保险2024年投资策略报告:资产负债匹配穿越利率周期.pdf
- 政策研究2024年宏观政策与经济形势展望:共识与分歧.pdf
- 有色金属行业2024年投资策略报告:新旧需求共振&工业原料受限,构筑有色大海星辰.pdf
文档评论(0)