- 1、本文档共43页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
聚类分析.ppt
第一节 聚类分析方法 第二节 聚类统计量 第三节 无量纲化方法 第四节 Q型系统聚类法 第五节 R型系统聚类法 第六节 快速聚类法 推荐阅读 第一节 聚类分析方法 聚类分析是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法,它们讨论的对象是大量的样品,要求能合理地按各自的特性来进行合理的分类,没有任何模式可供参考或依循,即是在没有先验知识的情况下进行的。 基本思想是根据事物本身的特性研究个体分类的方法;聚类原则是同一类中的个体有较大的相似性,不同类中的个体差异很大。 基本程序:是根据一批样品的多个观测指标,具体地找出一些能够度量样品或指标之间相似程度的统计量,然后利用统计量将样品或指标进行归类。 具体进行聚类时,由于目的、要求不同,因而产生各种不同的聚类方法: 由小类合并到大类的方法 由大类分解为小类的方法 静态聚类法、动态聚类法 按样本聚类(Q)、按指标聚类(R) 在社会经济领域中存在着大量分类问题,如: 对我国31个省市自治区独立核算工业企业经济效益进行分析,一般不是逐省市自治区去分析,而较好地做法是选取能反映企业经济效益的代表性指标,如百元固定资产实现利税、资金利税、产值利税率等,根据这些指标对全国各省市自治区进行分类,然后根据分类结果对企业经济效益进行综合评价,就易于得出科学的分析。 第二节 聚类统计量 一、概述 二、Q型聚类统计量 三、R型聚类统计量 概述 设有n个样本单位,每个样本测得p项指标(变量),原始资料阵为: Q型聚类以距离作为统计量,R型聚类以相似系数作为统计量。 Q型聚类统计量(距离) 把n个样本点看成p维空间的n个点 1、绝对距离(Block距离) 2、欧氏距离(Euclidean distance) 3、明考斯基距离(Minkowski) 4、兰氏距离 5、马氏距离 6、切比雪夫距离(Chebychev) R型聚类统计量 对两个指标之间的相似程度用相似系数来刻划,相似系数的绝对值越接近于1,表示指标间的关系越密切,绝对值越接近于0,表示指标间的关系越疏远。 1、夹角余弦 2、相关系数 3、同号率 第三节 无量纲化方法 所谓无量纲化处理,是将原始数据矩阵中每个元素按照某种特定的运算把它变成一个新值,且是数值的变化不依赖于原始数据中其它数据的新值。 1、极差正规化(规格化变换、阈值法) 2、标准化变换 3、功效系数法 4、相对化变换 例:某年我国部分省市经济效益情况 用以上几种方法对其无量纲化。 第四节 Q型系统聚类法 系统聚类法(层次聚类法):在聚类分析的开始,每个样本自成一类;然后 ,按照某种方法度量所有样本之间的亲疏程度,并把最相似的样本首先聚成一小类;接下来,度量剩余的样本和小类间的亲疏程度,并将当前最接近的样本或小类再聚成一类;再接下来,再度量剩余的样本和小类间的亲疏程度,并将当前最接近的样本或小类再聚成一类;如此反复,直到所有样本聚成一类为止。 步骤: 1、对数据进行变换处理,消除量纲 2、构造n个类,每个类只包含一个样本计算 3、n个样本两两间的距离{dij} 4、合并距离最近的两类为一新类 5、计算新类与当前各类的距离,重复(4) 6、画聚类图 7、决定类的个数和类 类与类间距离的确定 一、最短距离法 二、最长距离法 三、中间距离法 四、重心距离法 五、类平均法 六、离差平方和 最短距离法(Nearest Neighbor) 以当前某个样本与已经形成的小类中的各样本距离中的最小值作为当前样本与该小类之间的距离。 G1={辽宁},G2={浙江},G3={河南},G4={甘肃},G5={青海} =[(7.9-7.68)2+(39.77-50.37)2+(8.49-11.35)2+(12.94-13.3)2+(19.27-19.25)2+(11.05-14.59)2+(2.04-2.75)2+(13.29-14.87)2]0.5=11.67 d13=13.80 d14=13.12 d15=12.80 d23=24.63 d24=24.06 d25=23.54 d34=2.2 d35=3.51 d45=2.21 1 2 3 4 5 D1= 1 0 2 11.67 0 3 13.80 24.63 0 4 13.12 24.06 2.20 0
您可能关注的文档
- 细水口模架-广东岭南职业技术学院申报2011年广东省精品课程.ppt
- 组织学与胚胎学HISTOLOGY&EMBRYOLOGY-BINZHOUMEDICAL.ppt
- 绩效开发与绩效管理.ppt
- 结题表.doc
- 结核病细菌学检验的标准化与新技术进展(海淀)2012.ppt
- 维修电工技能.ppt
- 绝不沾染毒品。ppt.ppt
- 统一思想、转变观念、努力办好现代职业教育(郑校长报告-焦作大学.ppt
- 维普中文期刊服务平台7.doc
- 综合所得税.ppt
- 2025AACR十大热门靶点推荐和解读报告52页.docx
- 财务部管理报表.xlsx
- 高中物理新人教版选修3-1课件第二章恒定电流第7节闭合电路欧姆定律.ppt
- 第三单元知识梳理(课件)-三年级语文下册单元复习(部编版).pptx
- 俄罗斯知识点训练课件-七年级地理下学期人教版(2024).pptx
- 课外古诗词诵读龟虽寿-八年级语文上学期课内课件(统编版).pptx
- 高三语文二轮复习课件第七部分实用类文本阅读7.2.1.ppt
- 高考物理人教版一轮复习课件第4章第3讲圆周运动.ppt
- 高考英语一轮复习课件53Lifeinthefuture.ppt
- 2025-2030衣柜行业风险投资发展分析及投资融资策略研究报告.docx
文档评论(0)