- 1、本文档共29页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
判别分析与聚类分析判别分析与聚类分析
判别分析(Discriminant Analysis)
一、概述:
判别问题又称识别问题,或者归类问题。
判别分析是由Pearson于1921年提出,1936年由Fisher首先提出根据不同类别所提取的特征变量来定量的建立待判样品归属于哪一个已知类别的数学模型。
根据对训练样本的观测值建立判别函数,借助判别函数式判断未知类别的个体。
所谓训练样本由已知明确类别的个体组成,并且都完整准确地测量个体的有关的判别变量。
训练样本的要求:类别明确,测量指标完整准确。一般样本含量不宜过小,但不能为追求样本含量而牺牲类别的准确,如果类别不可靠、测量值不准确,即使样本含量再大,任何统计方法语法弥补这一缺陷。
判别分析的类别很多,常用的有:适用于定性指标或计数资料的有最大似然法、训练迭代法;适用于定量指标或计量资料的有:Fisher二类判别、Bayers多类判别以及逐步判别。半定量指标界于二者之间,可根据不同情况分别采用以上方法。
类别(有的称之为总体,但应与population的区别)的含义——具有相同属性或者特征指标的个体(有的人称之为样品)的集合。如何来表征相同属性、相同的特征指标呢?
同一类别的个体之间距离小,不同总体的样本之间距离大。
距离是一个原则性的定义,只要满足对称性、非负性和三角不等式的函数就可以称为距
绝对距离
马氏距离:(Manhattan distance)
设有两个个体(点)X与Y(假定为一维数据,即在数轴上)是来自均数为,协方差阵为的总体(类别)A的两个个体(点),则个体X与Y的马氏距离为,类似地可以定义个体X与总体(类别)A的距离为
明考斯基距离(Minkowski distance): 明科夫斯基距离
欧几里德距离(欧氏距离)
二、Fisher两类判别
一、训练样本的测量值
A类训练样本
编号 1 2 均数
B类训练样本
编号 1 2 均数
二、建立判别函数(Discriminant Analysis Function)为:
其中:、和为判别系数(Discriminant Coefficient)
可解如下方程组得判别系数。
各类的离差阵分别以、表示
类内离差阵为、之和
三、Y值的判别界值
将、、 、代入判别函数,得到相应的,
将、、 、代入判别函数,得到相应的,
两类的判别界值为:
当两类的样本含量相差较多时应加权,用下式计算判别界值
将每个个体的、、 、代入判别函数计算,根据判别界值判别归类。
四、对判别函数检验
为训练样本中两类和在一起的离差阵(注意与的区别)
计算Wilks统计量
, ,
五、回代 观察判别函数的判别效果
举例 设要建立一个判别函数来判别医院的工作情况,公认的A类医院11所,B类医院9所。
X1 :床位使用率
X2 :治愈率
X3 :诊断指数
判别指标如下两表:
A类医院
编号 X1 X2 X3 Y 1 98.82 85.49 93.18 7.9839 2 85.37 79.10 99.65 7.9879 3 86.64 80.64 96.94 7.9391 4 73.08 86.82 98.70 8.1008 5 78.73 80.44 97.61 7.8836 6 103.44 80.40 93.75 7.8807 7 91.99 80.77 93.93 7.8161 8 87.50 82.50 94.10 7.3665 9 81.82 88.45 97.90 8.1802 10 73.16 82.94 92.12 7.6592 11 86.19 83.55 93.30 7.8919 均数 89.3373 82.8273 94.7073 7.8781
B类医院
编号 X1 X2 X3 Y 1 72.48 78.12 82.38 7.0300 2 58.81 86.20 73.46 6.7616 3 72.48 84.87 74.09 6.8505 4 90.56 82.07 77.15 7.0413 5 73.73 66.63 93.98 7.2244 6 72.79 87.59 77.15 7.0550 7 74.27 93.91 85.54 6.7346 8 93.62 85.89 79.80 7.3152 9 78.69 77.01 86.79 7.2522 均数 76.3811
文档评论(0)