- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
现代统计理论与方法 第8章 判别分析 判别分析 聚类分析都是直接比较各事物之间的性质,将性质相近的归为一类,将性质差别较大的归入不同的类。 判别分析先根据已知类别的事物的性质,利用某种技术建立函数式,然后对未知类别的新事物进行判断以将之归入已知的类别中。 判别和聚类的区别 判别分析 聚类分析 只对样本分类 可以对样本分类,也可以对指标分类 事先总体分类明确 (训练样本) 事先总体分类不明确,应分几类不明确 根据训练样本建立判别函数和判别准则,再对新样本进行分类 直接对样本分类 判别举例 G1是设备A生产的产品类,G2是设备B生产的产品类。产品的指标是耐磨度,用Xt(1,2)表示。已知 总体G1: 总体G2 : 现有一样品,耐磨指标X=78,应判归哪一类? 距离判别 基本思想:首先根据已知分类的数据,分别计算各类的重心即分组(类)的均值,判别准则是对任给的一次观测,若它与第i类的重心距离最近,就认为它来自第i类。距离判别法,对各类(或总体)的分布,并无特定的要求。 按就近原则归类 定义和计算公式 定义:判别分析先根据已知类别的事物的性质(自变量),建立函数式(自变量的线性组合,即判别函数),然后对未知类别的新事物进行判断以将之归入已知的类别中。 判别分析的特点 根据已掌握的、历史上若干样本的p个指标数据及所属类别的信息,总结出该事物分类的规律性,建立判别公式和判别准则。 根据总结出来的判别公式和判别准则,判别未知类别的样本点所属的类别。 在分析的各个阶段应把握如下的原则: 事前组别(类)的分类标准(作为判别分析的因变量)要尽可能准确和可靠,否则会影响判别函数的准确性,从而影响判别分析的效果。 所分析的自变量应是因变量的重要影响因素,应该挑选既有重要特性又有区别能力的变量,达到以最少变量而有高辨别能力的目标。 初始分析的数目不能太少。 判别分析的一般步骤 判别函数 判别的基本方法是把新个体归入与它性质最相近的已知类。在表达“性质最相近”时,有时候是用距离远近衡量,有时候则用损失的大小表示。不管用什么方法表达,都离不开判别函数,而线性判别函数又用得最多。 线性判别函数是判别指标的q个线性函数 这些判别函数是各个独立预测变量(自变量)的线性组合。程序自动选择第一个判别函数,以尽可能多地区别各个类,然后再选择和第一个判别函数独立的第二个判别函数,尽可能多地提供判别能力。程序将按照这种方式,提供剩下的判别函数。判别函数的个数为k。 判别函数是从高维空间到较低维空间的一组线性变换,为了使低维空间内的判别工作变得更容易,很自然地对判别函数提出两个基本要求,并且可用数学方式来表达。 (1)空间中的原始类在空间中的像集合应该容易区分,即这些像集合之间应有较大的间隔空间。 (2)每个原始类的像集合,其元素在空间的分布应较为集中,或者说有较大的“密度”。 判别函数 Gt的像点中心 所有像点中心 判别函数 定义第r个映射的组内平方和 定义第r个映射的组间平方和 定义特征值 判别函数的判别效率 对判别函数来说:特征值越大,区别已知类的能力就越强。这是比较判别函数好坏的重要指标,也称为第r个判别函数的判别效率。 第r个判别函数的判别能力 Fisher判别 Fisher判别(典型判别)的基本思想是投影(降维)。 即把K类的m维数据投影(变换)到某一个方向,使得变换后的数据,同类别的点“尽可能聚在一起”,不同类别的点“尽可能分离”,以此达到分类的目的。 Fisher判别 用p维向量x=(x1,x2,…,xp)/的少数几个线性组合(称为判别式或典型变量),y2=a2/x,…,yr=ar/x(r应明显小于p)来代替原始的p个变量x1,x2,…,xp,以达到降维的目的,并根据这r个判别式y1,…,yr对样品的归属作出判别 现将k组p维数据投影到某一个最佳方向,使它们的投影组与组之间尽可能分开,即表示投影到该方向的线性组合y=a/x能最大限度地表现出各组之间的差异。 判别结果依赖于总体本身的分离程度,不同总体的差异越大,判别结果越好。 Fisher判别的思想: 借助方差分析思想构造线性判别函数,使各组间差异最大而组内离差平方和最小 判别函数的检验 H0:各组的均值向量相等(判别函数无统计意义) 判别效果的评价 判别分析的正确应用 理论上,类间分得越开,判别效果越好,类间距离越近,判别效果就越差。 不同的判别方法间是个参照,大多情况下,效果近似。 关键是指标是否具有判别价值 利用ANOVA对自变量进行单因素方差分析,看他们在各组间有无差别。 自变量和因变量之间的关系符合线性假定 因变量的取值相互独立且事先确定 自变量服从多元正态分布 所有自变量在各组间方差齐,协方差齐 自变量之间不存在多重共线性 注:上述条件在实际问题中很难同
文档评论(0)