生物统计学必备之—对多元的统计分析.pptVIP

生物统计学必备之—对多元的统计分析.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第三章 多元统计分析;在工业、农业、医学、气象、环境以及经济、管理等诸多领域中,常常需要同时观测多个指标。例如,要了解一个国家经济发展的类型也需观测很多指标,如:人均国民收入、人均工农业产值、人均消费水平等等。 在医学诊断中,要判断某人是有病还是无病、也需要做多项指标的体检,如:血压、心脏脉博跳动的次数、白血球、体温等等。 ;总之,在科研、生产和日常生活中,受多种指标共同作用和影响的现象是大量存在的,举不胜举。上述指标, 在数学上通常称为变量,由于每??观测的指标值是不能预先确定的。因此每个指标可用随机变量来表示。 ;多元分析也是一种处理大量数据的方法,与统计分析所不同的是:多元分析所处理的不是统计意义下的样本,一般并不要求用它们去推断总体的特征,因而不需要随机取样,不必了解数据的分布性质,也不涉及显著性检验。;从应用的角度看,多元统计分析就是要研究多个变量之间的关系,但哪些问题才是多元统计的内容,并无严格的界限。;一般认为,典型的多元统计分析主要可归结为两类问题:第一类是决定某一样品的归属问题,即称之为分类,判别分析和聚类分析就属于此内容。第二类问题是设法降低变量维数,同时将变量变为独立变量,以便更好地说明多变量之间的关系,常称之为排序。主成分分析和因子分析属于此内容。 ;;第一节 数据的类型;; 具体来讲,属性的类型分为三种: 一、名称属性(nominal attributes) 有的属性只能描述为若干种不同的状态,每个实体具有其中一种状态。;;;;2.无序多状态属性 ;二、 顺序属性(ordinal attributes) ;;三、 数量属性(quantitative attributes) ;第二节 数据的处理;;数据标准化(包括中心化与正规化)引起的数值变换依赖于原始数据整体的取值,随着所用的整体值不一样而有各种不同的标准化,标准化的方法常有:用总和标准化、用最大值标准化、用极差标准化、用模标准化、数据的中心化、用离差标准化、用标准差标准化。; 例1. 假定有如下4个样方4个种的原始数据;;;;;第三节 相似系数; 实际上有两类指标:一类是真正的相似性指标,它的数值大小直接反映两成员间的相似程度;而另一类应该叫相异性指标,其数值大小反映两成员的差异程度。但是,从数学上讲,相似和相异是互补的概念,两种指标都同样衡量相似性,区别仅在于前者数值愈大表示越相似,而后者数值愈小表示越相似。所以我们无须严格区分这两类指标,而统称为相似。;;第四节 判别分析 ;例如医生要根据某人的各项化验指标的结果来判断该人属于什么病症;在考古学中需要根据人的身长、坐长、鼻骨的高度、深度等特征判别人的种族。 ;第五节 聚类分析; 聚类分析的目的是建立一定的准则,将“相似”的东西聚合成类,其基本思想是,从一批样品的多个观测指标中,确定能度量样品之间或指标之间相似程度(亲疏关系)的统计量,构成一个对称的相似性矩阵。;在此基础上进一步计算出各样品(或变量)之间或样品组合之间的相似程度,按相似程度的大小,把样品(或变量)逐一归并成类,将关系密切的归并聚集到一个小的分类单位,关系疏远的则聚集到一个大的分类单位,直到所有样品(或变量)都聚集完毕、形成一个亲疏关系谱系图(聚类图)为止。 ;;;2)分解法(等级分划分类)它的程序恰好和系统聚类相反,首先将所有的样品并在一类,然后用某种最优准则把它分成两类.再用同样的准则将这两类各自试图分成两类,从中选一个使目标函数较好者。这样由两类变成三类,如此下去,一直分类到每类只有一个样品为止(或用其它停止规则),将上述分裂过程画成图。由图便可求得各个类。;;;;;第六节 主成分分析(主分量分析);在多变量的分析中,为了尽可能完整地搜集信息,对每个样品往往要测量许多项指标,当然这可以避免重要情报的遗漏,然而从统计的角度来看,这些变量可能存在着很强的相关性,使得分析问题增加了复杂性.因此.自然想到用少数几个不相关的综合变量来代替原来较多的相关变量的研究。而且要求这些不相关的综合变量能够反映原变量提供的大部分信息,从数学的角度来看,这就是降维的思想。 ;例如,某人要做一件上衣要测量很多尺寸,如身长、袖长、胸围、腰围、肩宽、肩厚等十几项指标,但某服装厂要生产一批新型服装绝不可能把尺寸的型号分得过多、而是从多种指标中综合成几个少数的综合指标,做为分类的型号,利用主成分分析将十几项指标综合成3项指标.一项是反映长度的指标,一项是反映胖瘦的指标. 一项是反映特体的指标。 ;例 为研究山楂园昆虫群落演替,分16个时期对园中16种主要昆虫进行了调查,试进行主成分分析。;;;;;;;第七节 因子分析;;;

文档评论(0)

smartxiaohuli + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档