- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
3聚类分析概论
聚类分析;目 录; 例 对10位应聘者做智能检验。3项指标X,Y和Z分别表示数学推理能力,空间想象能力和语言理解能力。其得分如下,选择合适的统计方法对应聘者进行分类。;; 我们直观地来看,这个分类是否合理?
计算4号和6号得分的离差平方和:
(21-20)2+(23-23)2+(22-22)2=1
计算1号和2号得分的离差平方和:
(28-18)2+(29-23)2+(28-18)2=236
计算1号和3号得分的离差平方和为482,由此可见一般,分类可能是合理的,欧氏距离很大的应聘者没有被聚在一起。
由此,我们的问题是如何来选择样品间相似的测度指标,如何将有相似性的类连接起来?
; 聚类分析的定义:根据一批样品的许多观测指标,按照一定的数学公式具体地计算一些样品或一些参数(指标)的相似程度,把相似的样品或指标归为一类。
;§2 系统聚类法;正如样品之间的距离可以有不同的定义方法一样,类与类之间的距离也有各种定义。例如可以定义类与类之间的距离为两类之间最近样品的距离,或者定义为两类之间最远样品的距离,也可以定义为两类重心之间的距离等等。类与类之间用不同的方法定义距离,就产生了不同的系统聚类方法。
;一、常用的算法; 3、中间距离法:介于最短距离与最长距离之间的距离。; 类平均法定义类间的距离是两类间样品的距离的平均数。; 5、可变类平均法
类平均法的递推公式中,没有反映Gp类和Gq类的距离有多大,进一步将其改进,加入D2pq,并给定系数?1,则类平均法的递推公式改为:; 6、离差平方和法 ;其中 是由Gp和Gq合并成的Gr类的类内离差平方和。可以证明离差平方和的聚类公式为
; 7、可变法;分别为Gp和Gq的重心,类与类之间的距离定义为
两个类重心(类内样品平均值)间的平方距离。; 设某一步Gp和Gq的重心分别为 和 ,类内的样品数分别为np和nq,如果要把Gp和Gq合并为Gr类,则Gr类的样品数nr=np+nq,Gr类的重心为 和 的加权算术平均数:
; 假设第p类和第q类合并成第r类,第r类与其它各旧类的距离按重心法为:; 二、确定类的个数 ; 总离差平方和的分解(准备知识);如果这些样品被分成两类;可以证明:
总离差平方和
=组内离差平方和+组间离差平方和
令T为总离差平方和
令PG为分为G类的组内离差平方和。; 2、统计量
其中T是数据的总离差平方和, 是组内离差平方和。
比较大,说明分G个类时类内的离差平方和比较小,也就是说分G类是合适的。但是,分类越多,每个类的类内的离差平方和就越小, 也就越大;所以我们只能取合适的G,使得 足够大,而G本身很小,随着G的增加, 的增幅不大。比如,假定分4类时, =0.8; 下一次合并分3类时,下降了许多, =0.32,则分4 类是合适的。; 3、伪F统计量的定义为
伪F统计量用于评价聚为G类的效果。如果聚类的效果好,类间的离差平方和相对于类内的离差平方和大,所以应该取伪F统计量较大而类数较小的聚类水平。
;Pseudo F Statistic;4、伪 统计量的定义为
其中 和 分别是K和L的类内离差平方和, 是将K和L合并为第M类的离差平方和
= - -
为合并导致的类内离差平方和的增量。用它
评价合并第K和L类的效果,伪 统计量大说
明不应该合并这两类,应该取合并前的水平。; 三、系统聚类法的基本性质
; 2、空间的浓缩和扩张
设有两种系统聚类法A和B,他们在第i步的距离矩阵分别为Ai和Bi(i=1,2,3…),若AiBi ,则称第一种方法A比第二种方法B使空间扩张,或第二种方法比第一种方法浓缩。;四、主要的步骤; 3、聚类
选定了聚类的变量,计算出样品或指标之间的相似程度后,构成了一个相似程度的矩阵。这时主要涉及两个问题:
(1)选择聚类的方法
(2)确定形成的类数;4、聚类结果的解释;例1 某公司下属30个企业,公司为了考核下属企业的经济效益,设计了8个指标。为了避免重复,需要对这8个指标进行筛选,建立一个恰当的经济效益指标体系。通过计算30个企业8个指标的相关系数距离,数据是1-r2。得如下表:;;例2 根据美国等20个国家和地区的信息基础设施
的发展状况进行分类。
Call—每千人拥有的电话线数;
movel—每千人户居民拥有的蜂窝移动电话数;
fee—
您可能关注的文档
最近下载
- 关于十二矿优化劳动组织的调研报告.docx VIP
- 沪粤版九年级物理上册知识点整理.pdf VIP
- 关于十二矿优化劳动组织的调研报告.doc VIP
- 2025年财会类中级会计职称中级会计实务-中级会计实务参考题库含答案解析(5套试卷).docx VIP
- 旅游咨询项目创业计划书.pptx VIP
- 西师版数学六年级上册全册教案.pdf VIP
- 2025江西鹰潭市公安局面向社会招聘留置看护勤务辅警87人笔试备考试题及答案解析.docx VIP
- 浅析互联网金融平台的风险与监管——以蚂蚁金服为例.doc VIP
- 旅游咨询创业计划书.pptx VIP
- 【0181】46页PPT数字化建设项目总体规划蓝图(豪华版).pptx VIP
文档评论(0)