多元统计分析第六章课件第二部分.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
费希尔判别需假定Σ1=Σ2=?=Σk=Σ。设来自组πi的p维观测值为xij,j=1,2,?,ni,i=1,2,?,k,记 式中 则B是组间平方和及交叉乘积和,E是组内平方和及交叉乘积和,Sp是Σ的联合无偏估计。 设E?1B的全部非零特征值依次为λ1≥λ2≥?≥λs0,其中的非零特征值个数 s≤min(k?1,p) 相应的特征向量依次记为t1,t2,?,ts(标准化为ti′Spti=1, i=1,2,?,s),称y1=t1′x为第一判别式,y2=t2′x为第二判别式。一般地,称yi=ti′x为第i判别式,i=1,2,?,s。 由s≤min(k?1,p)知,组数k=2时只有一个判别式,k=3时最多只有两个判别式,判别式的个数不可能超过原始变量的个数p。 特征值λi表明了第i判别式yi对区分各组的贡献大小,yi的贡献率为 而前r(≤s)个判别式y1,y2,?,yr的累计贡献率为 它表明了y1,y2,?,yr的判别能力。 在实际应用中,如果前r个判别式的累计贡献率已达到了一个较高的比例(如75%~95%),则可采用这r个判别式做判别。 判别规则为 其中 ,i=1,2,?,k 。该判别规则也可表达为 如果只使用一个判别式进行判别(即r=1),则以上判别规则可简化为 式中y和 (i=1,2,?,k)分别是前面判别规则中的y1和 (i=1,2,?,k)。 有时我们也使用中心化的费希尔判别式,即 式中 为k个组的总均值。仍使用同上的判别规则进行判别。 对于两组的判别,费希尔判别等价于协方差矩阵相等的距离判别,也等价于协方差矩阵相等且先验概率和误判代价也均相同的贝叶斯判别。 例10 费希尔于1936年发表的鸢尾花(Iris)数据被广泛地作为判别分析的例子。数据是对3种鸢尾花:刚毛鸢尾花(第Ⅰ组)、变色鸢尾花(第Ⅱ组)和弗吉尼亚鸢尾花(第Ⅲ组)各抽取一个容量为50的样本,测量其花萼长(x1)、花萼宽(x2)、花瓣长(x3)、花瓣宽(x4),单位为mm,数据列于下表 编号 组别 x1 x2 x3 x4 编号 组别 x1 x2 x3 x4 1 Ⅰ 50 33 14 2 76 Ⅲ 58 27 51 19 2 Ⅲ 64 28 56 22 77 Ⅱ 57 29 42 13 3 Ⅱ 65 28 46 15 78 Ⅲ 72 30 58 16 4 Ⅲ 67 31 56 24 79 Ⅰ 54 34 15 4 5 Ⅲ 63 28 51 15 80 Ⅰ 52 41 15 1 6 Ⅰ 46 34 14 3 81 Ⅲ 71 30 59 21 7 Ⅲ 69 31 51 23 82 Ⅲ 64 31 55 18 8 Ⅱ 62 22 45 15 83 Ⅲ 60 30 48 18 9 Ⅱ 59 32 48 18 84 Ⅲ 63 29 56 18 10 Ⅰ 46 36 10 2 85 Ⅱ 49 24 33 10 ? ? ? ? ? ? ? ? ? ? ? ? 66 Ⅱ 56 30 45 15 141 Ⅱ 55 23 40 13 67 Ⅱ 58 27 41 10 142 Ⅱ 66 30 44 14 68 Ⅰ 50 34 16 4 143 Ⅱ 68 28 48 14 69 Ⅰ 46 32 14 2 144 Ⅰ 54 34 17 2 70 Ⅱ 60 29 45 15 145 Ⅰ 51 37 15 4 71 Ⅱ 57 26 35 10 146 Ⅰ 52 35 15 2 72 Ⅰ 57 44 15 4 147 Ⅲ 58 28 51 24 73 Ⅰ 50 36 14 2 148 Ⅱ 67 30 50 17 74 Ⅲ 77 30 61 23 149 Ⅲ 63 33 60 25 75 Ⅲ 63 34 56 24 150 Ⅰ 53 37 15 2 鸢尾花数据 本题中,n1=n2=n3=50,n=n1+n2+n3=150。 经计算 E?1B的正特征值个数s≤min(k?1,p)=min(2,4)=2,可求得两个正特征值 λ1=32.192, λ2=0.285 相应的标准化特征向量 所以,中心化的费希尔判别式为 判别式的组均值为 对于任一样品x,可按下式进行判别: 由于n1,n2,n3都很大,因此用第一种估计误判概率的效果还是不错的,判别情况列于下表2。 所以 这些误判概率是比较低的。 判别为 Ⅰ Ⅱ Ⅲ 真实组 Ⅰ 50 0 0 Ⅱ 0 48 2 Ⅲ 0 1 49 判别情况 我们可以将样本中150个样品的判别式得分(y1,y2)作一散点图,下图是SAS9.1的输出结果。图中,Can1,Can2分别是指y1,y2。组Ⅰ、组Ⅱ和组Ⅲ的点分别用“1”、“2

文档评论(0)

LOVE爱 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:5341224344000002

1亿VIP精品文档

相关文档