判别分析及聚类分析.docxVIP

下载本文档

0
0
约1.49万字
约 26页
2023-09-18 发布于天津
举报
版权申诉

判别分析及聚类分析.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

判别分析（DiscriminantAnalysis）一、概述：判别问题又称识别问题，或者归类问题。判别分析是由Pearson于1921年提出，1936年由Fisher首先提出根据不同类别所提取的特征变量来定量的建立待判样品归属于哪一个已知类别的数学模型。根据对训练样本的观测值建立判别函数，借助判别函数式判断未知类别的个体。所谓训练样本由已知明确类别的个体组成，并且都完整准确地测量个体的有关的判别变量。训练样本的要求：类别明确，测量指标完整准确。一般样本含量不宜过小，但不能为追求样本含量而牺牲类别的准确，如果类别不可靠、测量值不准确，即使样本含量再大,任何统计方法语法弥补这一缺陷。判别分析的类别很多，常用的有：适用于定性指标或计数资料的有最大似然法、训练迭代法；适用于定量指标或计量资料的有：Fisher二类判别、Bayers多类判别以及逐步判别。半定量指标界于二者之间，可根据不同情况分别采用以上方法。类别（有的称之为总体，但应与population的区别）的含义具有相同属性或者特征指标的个体（有的人称之为样品）的集合。如何来表征相同属性、相同的特征指标呢？同一类别的个体之间距离小，不同总体的样本之间距离大。距离是一个原则性的定义，只要满足对称性、非负性和三角不等式的函数就可以称为距绝对距离马氏距离：（Manhattandistance）设有两个个体（点）X与丫（假定为一维数据，即在数轴上）是来自均数为r，协方差阵为￡的总体（类别）A的两个个体（点），则个体乂与Y的马氏距离为D（X,Y）=（X-Y）t￡-（X-Y），类似地可以定义个体X与总体（类别）A的距离为D（X,A）=（X-r）t￡-1X-r）明考斯基距离（Minkowskidistance）:明科夫斯基距离欧几里德距离（欧氏距离）二、Fisher两类判别一、训练样本的测量值 A类训练样本编号 Xx…x 1 七11XA12…XA1m 2 XXX A21A22A2m n x x x A AnA1 AnA2 AnAm 均数 x A1 x A2 x Am B类训练样本编号 x 1 x 2 x m 1 x x x B11 B12 B1m 2 x x x B21 .. B22 .. B2m .. n ■ x ■ x ■ x B Bn1 Bn2 BnBm 均数 x B1 x B2 x Bm 二、建立判别函数(DiscriminantAnalysisFunction)为： Y=CX+CX+?.?+CXTOC\o1-5\h\z1122mm其中：C、。和C为判别系数(DiscriminantCoefficient)可解如下方程组得判别系数。 wC+wC++wC=x(A)-x(B)1111221mm11 wC+wC++wC=x(A)-x(B)2112222mm22 ???? wC+wC+???+wC=x(A)-x(B) m11m22 mmmm m 各类的离差阵分别以L(A)、L(B)表示 L(A)= fL(A) L(A) L(A)… L；(A)… L」A)、Lm(A) 2m m1(A) L2(A)… Lm(A)/ L(B)= fL(B) L(B)气 L(B)… L22(B) ”(B)、Lm(B) 2m ；Lm1(B) L2(B)… Lm(B)) 类内离差阵W为L(A)、L(B)之和/ww…wTOC\o1-5\h\z11121mwww21222m????kwm1wm2三、Y值的判别界值、x(A)代入判别函数，得到相应的Y(A)，m、x(B)代入判别函数，得到相应的Y(B)，m将x1(A)、x2(A)、将x 、x(A)代入判别函数，得到相应的Y(A)，m、x(B)代入判别函数，得到相应的Y(B)，m v_Y(A)+Y(B)Yc2 当两类的样本含量相差较多时应加权，用下式计算判别界值Y=〃.Y(A)+.Y(B)cn+n 将每个个体的％、X2、.?.、七代入判别函数计算Y，根据判别界值七判别归类。四、对判别函数检验T为训练样本中两类和在一起的离差阵(注意与W的区别)TOC\o1-5\h\z1112「T=‘21‘22.「\m ????Im1m2mm计算Wilks统计量UU=W lTl 「1-UN-m-11F=u?,v=m，v=n-m-1五、回代观察判别函数的判别效果 (完整word)判别分析及聚类分析举例设要建立一个判别函数来判别医院的工作情况,公认的A类医院11所，B类医院9所。 X1:床位使用率X：:治愈率X：：诊断指数判别指标如下两表： A类医院编号 X1 X2 X3 Y 1 98。82 85。49 93。18 7.9839 2 85。37 79。10 99.65 7。9879 3 86.64 80.64 96。94 7.9391 4 73。08 86。