- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
针对聚类分析的具体描述
摘要:
本文简单介绍了模式识别中的聚类分析法的根本概念,各种聚类分析方法,及各种方法的具体应用,其中,重点讲述了层次聚类法和动态聚类法。
1.聚类分析概述
聚类分析又叫群分析、点群分析或者簇分析,是直接比拟各事物之间的性质,将性质相近的归为一类,将性质差异较大的归入不同的类。聚类分析方法根据分类对象的不同可以分为两类:一类是对样品所作的分类,即Q-型聚类,一类是对变量所作的分类,即R-型聚类。聚类分析的根本思想是,对于位置类别的样本或变量,依据相应的定义把它们分为假设干类,分类过程是一个逐步减少类别的过程,在每一个聚类层次,必须满足“类内差异小,类间差异大”原那么,直至归为一类。评价聚类效果的指标一般是方差,距离小的样品所组成的类方差较小。
2.聚类分析的定义
聚类分析是将样品或变量按照它们性质上的亲疏程度进行分类的多元统计分析方法。进行聚类分析时,用来描述物品或变量的亲疏程度通常有两个途径,一个是把每个样品或变量看成是多维空间上的一个点,在多维坐标中,定义点与点,类与类之间的距离,用点与点间距离来描述作品或变量之间的亲疏程度;二是计算样品或变量的相似系数,用相似系数来描述样品或变量之间的亲疏程度。
3.层次聚类〔系统聚类〕法
3.1根本思想
系统聚类分析的根本思想是,把n个样品看成p维〔p个指标〕空间的点,而把每个变量看成p维空间的坐标轴,根据空间上点与点的距离来进行分类。
3.2系统聚类分析的一般步骤
1)对数据进行变换处理;
2)计算各样品之间的距离,并将距离最近的两个样品合并成一类;
3)选择并计算类与类之间的距离,并将距离最近的两类合并,如果累的个数大于1,那么继续并类,直至所有样品归为一类为止;
4)最后绘制系统聚类谱系图,按不同的分类标准,得出不同的分类结果。
3.3常用层次聚类分析方法
1〕最短距离法
聚类Gp和G
D
〔3-1〕
2〕最长距离法
聚类Gp和G
D
〔3-2〕
3〕中间距离法
设聚类wl到wk的距离分别为Dlp和Dkp,wp
D
〔3-3〕
图3.1中间距离法
4〕重心法
从物理的观点看,假设要用一个点表示一个类的空间位置,那么类的重心较为合理。因此,类之间的距离可以定义为它们重心之间的距离。
D
〔3-4〕
5〕类平均法
聚类Gk和G
D
〔3-5〕
6〕可变类平均法
可变平均距离法是在平均距离法的递推公式〔3-5〕中参加Dpq
D
〔3-6〕
7〕离差平方和法
D
〔3-7〕
4.动态聚类方法
4.1选择凝聚点
凝聚点就是一批有代表性的点,是待形成类的中心。凝聚点的选择直接决定初始分类,对分类结果也有很大影响,通常选择凝聚点的方法为:
1〕凭经验选择凝聚点。
2〕根据数据情况将全部样品人为地凭经验分成k类,之后计算每一类的重心,将这些重心作为凝聚点。
3〕用密度法选择凝聚点。
4〕用前k个样本作为凝聚点。
4.2初始分类
有了凝聚点以后接下来就要进行初始分类,同样获得初始分类也有不同的方法。需要说明的是,初始分类不一定非通过凝聚点确定不可,也可以依据其他原那么分类。
以下是其他几种初始分类方法:
1〕人为分类,凭经验进行初始分类。
2〕选择一批凝聚点后,每个样品按与其距离最近的凝聚点归类。
3〕选择一批凝聚点后,每个凝聚点自成一类,将样品依次归入与其距离最近的凝聚点那一类,并立即重新计算该类的重心,以代替原来的凝聚点,在计算下一个样品的归类,直至所有样品都划到相应的类中为止。
4〕做数据标准化处理。
令
sum
MA=
MI=
(4-1)
对每一个样品分别计算
(
(4-2)
5〕用其他聚类方法得到一个分类,这个分类就作为初始分类。
4.3分类函数
按照修改原那么不同,动态聚类方法有按批修改法、逐个修改法、混合法等。这里主要介绍逐步聚类法中按批修改法。按批修改法分类的原那么是,每一步修改都将使对应的分类函数缩小,趋于合理,并且分类函数最终趋于定值,即计算过程是收敛的。
按批修改法中一个重要的概念就是分类函数。假定x1,x2……xn表示n个样品点,初始分类为K:G1,G2……Gk,它们的重心x1,x
即有
D
(4-3)
用lw表示x1所属类的标号,因为S是G分类间的距离平方和,故有
S
(4-4)
所以有
e
=
=
(4-5)
4.4动态聚类分析步骤
1〕首先将原始数据进行标准化处理;
2〕选择预定数目凝聚点进行初始分类;
3〕计算每一类的重心,将重心作为凝聚点,然后计算每一个样品与重心凝聚点的距离,并将它归入与凝聚点距离最近的那一类别。每归入一个样品之后,重新计算该类的重心,并用新计算的重心替代原凝聚点,如果新凝聚点与老凝聚点重合,那么分类过程终止。
5.聚类的应用领域
在经济领域,帮助市场分析人员从客户数据库中发
您可能关注的文档
- 新概念入门AUnit4课件.ppt
- 新产品导入程序.ppt
- 数字媒体教程.ppt
- 数字集成电路-电路系统与设计chapter2.ppt
- 最新人教版八年级数学上册13.3.2等边三角形(第2课时).ppt
- 新概念英语第二册-Lesson37.ppt
- 铜及其化合物导学案.doc
- 新版CF怎么创建战队.pptx
- 银行管理系统.doc
- 新广州牛津版半年级下册Unit-6grammar.ppt
- 基本积分公式(24个).docx
- 电梯全套资料-20210724002603.docx
- 精神病患者的康复与社会适应.pptx
- 精神分裂症的抗精神病药物.pptx
- 精神疾病治疗的新趋势与方法.pptx
- 喷枪及类似器具项目风险分析和评估报告.docx
- 2024年贵州省金沙县人民医院招聘历年高频难、易错点200题模拟试题题库(培优B卷).docx
- 中国石油天然气股份有限公司兰州石化分公司整理定向招聘历年高频难、易错点100题模拟试题附带答案真题题.docx
- 东莞龙昌玩具有限公司2024年定向招聘历年高频难、易错点100题模拟试题附带答案题库大全(典型题).docx
- 历年湖南省岳阳县教委所属事业单位招考聘用50人高频难、易错点练习200题完整版(典优).docx
文档评论(0)