第四篇判别分析.pptVIP

下载本文档

7
0
约7.18千字
约 76页
2017-06-13 发布于北京
举报
版权申诉

第四篇判别分析.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第四章判别分析discriminant analysis 判别分析的基本概念两总体判别分析多总体判别分析 SPSS的判别分析过程一、判别分析的基本概念判别分析问题的描述：已知若干组分类数据现有一新样本，要求判定新样本数据属于已知分类中的哪一类判别分析的关键：判别函数：由描述各类的数值指标构成的分类规则，明确已知各类应如何区别例：肝炎病人的诊断两总体判别：肝炎病人和正常人判别依据：一些化验指标，形成判别公式-判别函数 Simple, Two-Group DA Pattern Recognition Problem 判别分析与方差分析、聚类分析聚类分析与判别分析间的联系聚类分析的数据格式判别分析的数据格式判别分析的方法与数学描述数据描述对于m类总体G1，G2，……，Gm，其分布函数分别为f1(y)，f2(y)，…… fm(y)，对于一个给定样品y，我们要判断出这个样本来自哪个总体。判别分析的主要问题就是如何寻找最佳的判别函数和建立判别规则。误判问题肝功指标高就一定是肝炎病人吗？误判率Misclassification (1-D case) Best - In What Sense? Minimizes probability of misclassification Maximizes posterior probability of correct classification Many others For example minimizes the cost of misclassification 具体问题具体分析疾病的诊断市场分析影响误判率的因素 Three groups - Two features 二、两总体判别分析基本思想：样品和哪个总体距离最近，就判断它属于那个总体。设：两个总体G1和G2，x是一个p维样本，x到总体G1和G2的马氏距离分别记为d2(x, G1)和d2(x, G2), 判别规则：若d2(x, G1) d2(x, G2),则认为x属于G1 ，反之若d2(x, G1) d2(x, G2),认为x属于G2 。或判别函数： W(x)= d2(x, G2)- d2(x, G1) 两指标、正态分布且方差相等的两总体线性判别函数设G1～N(?1,∑1)和G2～N(?2,∑2)为两正态总体，且协差阵相等，即∑1=∑2=∑，则样本x到G1、G2的马氏距离为 Linear Discrimination Rule 考察p=1的情况 ∑1≠∑2时，非线性判别函数 2. Fisher 判别法基本思想：寻找原变量x的一个线性组合，使得各组在此方向上投影的差异最大化，再选择合适的判别规则对样品进行分类判别。 Fisher’s approach 数学模型设：线性组合的系数向量为a, 考虑线性组合：z=xa——z: x在a方向的投影通过寻找合适的a，使投影到此方向的组间变异大，组内变异比较小，即使组间变异/组内变异（离差平方和）取最大值。以上证明，当a∝?-1(?2-?1)时满足我们的要求，即：判别投影方向在两类均值点的连线上。通常我们将a标准化。 ∴判别函数为：z=x?-1(?2-?1) Linear Discriminators 练习题两类总体相关统计资料如下：解：求Fisher判别函数z=x?-1(?2-?1) 例：books by mail 某书商从事邮购书业务。有50,000个顾客的统计数据，现公司计划推销一本新的艺术类书“the art history of Florence”。希望有针对性地邮寄订购单，即只向有可能购买该书的顾客推销，以降低成本。为了了解顾客情况，公司从50,000个现有顾客中随机抽取1000人发订购单，其中83人购买了该书。要求利用此数据中分析潜在购买者的特征。对1000个顾客样本进行判别分析，选取“最近一次购买至今的月数”和“购买艺术类书的本数”为判别变量。分类变量“buystatu”:0未购买者，1购买者求判别函数系数a∝?-1(?2-?1) SPSS输出结果判别变量和标准化判别函数的相关系数判别得分的分布回判结果协方差阵相等的检验-Box’s test H0: ?1=?2=…=?m 协方差不等时的判别：非线性判别函数如果仍用线性判别，误判率增大 Books by mail 类中心显著差异的检验Wilks’s ? test 为什么要检验？类中心距离太近时，误判率高。 3. Bayesian approach 前面两种方法中都没有考虑各类中样本数的差异没有考虑误判带来的不对称经济损失当各类样本数不同/误判损失不对称时，是否会影响判别函数的选取或判别规则？ Incorp