第三讲 DPS应用(3、多元统计分析).pptVIP

  1. 1、本文档共39页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

(五)聚类分析系统聚类分析编辑数据、定义数据块:一行一个样本,一列一个变量;选定待分析数据,定义成数据矩阵块;进入主菜单,选项执行“系统聚类分析”过程:在分析过程中,系统会先后要求选择数据转换方法、相似性尺度以及聚类方法。不过,对每一种选择都有一个默认值。可采用系统的默认值对数据实施规格化转换、采用卡方距离相似尺度和以离差平方和聚类方法进行聚类分析。例:为研究某地1962~1988年三化螟种群消长演替规律,根据历年积累的资料进行系统聚类分析。三化螟种群消长特征指标有第二、三代幼虫发生量,第二、三代卵盛孵高峰期(分别以5月31日和7月20日为零),二代至三代及三代至四代的增殖系数。原始数据编辑整理及其数据块的定义见图(五)聚类分析由于该数据的量纲不同,各列数据(即各个变量)的数量级别相差也较大,故在进行聚类分析之前先采用规格化变换方法对数据进行处理。对原始数据进行规格化变换后,再确定距离系数计算方法,在此采用卡方距离进行聚类分析。最后还要进行聚类分析方法的选择,本例中分别采用离差平方和法、类平均法、重心法和最短距离法等四种方法进行分析。聚类分析的输出结果包括数值和图形两部分,数值结果为各个样本的联结序号、联结水平和聚类谱系图索引;图形结果输出在屏幕上(图)。(五)聚类分析从聚类分析结果看,以离差平方和法的聚类效果最好。它将27个样本分成4类:第1类包括8个样本(1,4,5,6,2,3,17,21)第2类包括11个样本(7,20,14,10,11,12,22,25,26,27,23)第3类包括6个样本(8,9,18,15,16,19)第4类只有13和24,两个样本可以看成是一个特殊类别。最短距离法的聚类效果最差,而重心法由于所得到的谱系图出现逆转现象,且无法分类,从树状谱系图观点来看,该方法是不恰当的,这是重心法的一个缺点。第1类是重发生年类型;第2、3类是偏轻发生年类型,偏轻类型中的第2类是三代多发型,第3类是四代多发型;而第4类,即1974年和1985年(样本13,24)除第三代发生量大之外,第二代的发生量也很大,属于三化螟猖獗发生年。(五)聚类分析0-1型变量聚类分析当原始数据是二元性质的属性变量时,由于数据结构的特殊性,它不必进行数据转换处理。它可直接根据原始数据计算相似系数和距离系数。聚类分析数据编辑格式:一行一个样本,一列一个变量(第一列可以是样本名称)。编辑完后将待分析数据及其样本名称同时定义成数据块,然后执行“多元分析→聚类分析→0-1数据聚类分析”功能,系统出现如下选择框(五)聚类分析0-1型变量聚类分析在用户选择框内的右下角,多了一个0-1化阈值输入框,这是提供用户将数量化指标转换成0-1指标进行聚类分析的技术。如果是数量化指标,在经过数据转换后,再将转换后数据进行规格化变换处理,即从转换后数据矩阵的每一个变量中找出其最大和最小值,两者之差称为极差,然后从每一个原始数据中减去该变量中的最小值,再除以极差(称为规格化转换)。经这样的变换后,每列的最大数据变为1,最小数据变为0,其余数据取值在0~1之间。这时和给定的阈值相比,如大于等于给定的阈值则赋值为1,否则赋值为0。然后选定聚类距离和聚类方法。如果定义的数据块第一列是样本名称,则在“第一列是否是样本名称”选择框中选择“是”。分析结束时,系统会显示系统聚类树状图,用鼠标双击树状图后,会显示提示保存聚类图的界面(五)聚类分析动态聚类分析动态聚类法又称逐步聚类法,其基本思想是:首先,按照一定的方法选取一批凝聚点,然后让样品向最近的凝聚点凝聚。这样由点凝聚成类,得到初始分类。初始分类不一定合理,然后按最近距离原则修改不合理的分类,直到分类比较合理为止,从而形成一个最终的分类结果。(五)聚类分析动态聚类分析主要计算步骤:第1步,先将原始数据进行标准化处理。第2步,选择预定数目的凝聚点对样品进行初始分类(人为分类)。设xij为已标准化处理后的第i个样品的第j个指标,若初始分类数为K,经计算,分别将每个样品归入第k类(1≤k≤K),由此得到初始分类。第3步,计算每一类的重心,以该重心作为新的凝聚点,再计算每一个样品至新凝聚点的距离,并将它划入最近凝聚点所属的类别。当所计算的重心与原来的凝聚点完全相同,则过程终止,否则将重复按第3步的过程计算。第3步的重复过程是迭代过程,每一次迭代都使对应的分类函数缩小。当上下两次的重心完全相同时,计算过程收敛,此时分类函数趋于定值。按批修改法的最终分类结果受到初始分类的影响,这是动态聚类法的一个缺点。(六)判别分析在统计分析中,经常遇到分类判别的问题,也就是根据观测数据对所研究的对象进行分类判别。判别分析方法就是专

文档评论(0)

趁早学习 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档