- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第四章 判别分析discriminant analysis 判别分析的基本概念 两总体判别分析 多总体判别分析 SPSS的判别分析过程 一、判别分析的基本概念 判别分析问题的描述: 已知若干组分类数据 现有一新样本,要求判定新样本数据属于已知分类中的哪一类 判别分析的关键: 判别函数:由描述各类的数值指标构成的分类规则,明确已知各类应如何区别 例:肝炎病人的诊断 两总体判别:肝炎病人和正常人 判别依据:一些化验指标,形成判别公式-判别函数 Simple, Two-Group DA Pattern Recognition Problem 判别分析与方差分析、聚类分析 聚类分析与判别分析间的联系 聚类分析的数据格式 判别分析的数据格式 判别分析的方法与数学描述 数据描述 对于m类总体G1,G2,……,Gm,其分布函数分别为f1(y),f2(y),…… fm(y),对于一个给定样品y,我们要判断出这个样本来自哪个总体。判别分析的主要问题就是如何寻找最佳的判别函数和建立判别规则。 误判问题 肝功指标高就一定是肝炎病人吗? 误判率Misclassification (1-D case) Best - In What Sense? Minimizes probability of misclassification Maximizes posterior probability of correct classification Many others For example minimizes the cost of misclassification 具体问题具体分析 疾病的诊断 市场分析 影响误判率的因素 Three groups - Two features 二、两总体判别分析 基本思想:样品和哪个总体距离最近,就判断它属于那个总体。 设:两个总体G1和G2,x是一个p维样本,x到总体G1和G2的马氏距离分别记为d2(x, G1)和d2(x, G2), 判别规则:若d2(x, G1) d2(x, G2),则认为x属于G1 ,反之若d2(x, G1) d2(x, G2),认为x属于G2 。 或判别函数: W(x)= d2(x, G2)- d2(x, G1) 两指标、正态分布且方差相等的两总体 线性判别函数 设G1~N(?1,∑1)和G2~N(?2,∑2)为两正态总体,且协差阵相等,即∑1=∑2=∑,则样本x到G1、G2的马氏距离为 Linear Discrimination Rule 考察p=1的情况 ∑1≠∑2时,非线性判别函数 2. Fisher 判别法 基本思想:寻找原变量x的一个线性组合,使得各组在此方向上投影的差异最大化,再选择合适的判别规则对样品进行分类判别。 Fisher’s approach 数学模型 设:线性组合的系数向量为a, 考虑线性组合:z=xa——z: x在a方向的投影 通过寻找合适的a,使投影到此方向的组间变异大,组内变异比较小,即使组间变异/组内变异(离差平方和)取最大值。 以上证明,当a∝?-1(?2-?1)时满足我们的要求,即:判别投影方向在两类均值点的连线上。通常我们将a标准化。 ∴判别函数为:z=x?-1(?2-?1) Linear Discriminators 练习题 两类总体相关统计资料如下: 解:求Fisher判别函数z=x?-1(?2-?1) 例:books by mail 某书商从事邮购书业务。有50,000个顾客的统计数据,现公司计划推销一本新的艺术类书“the art history of Florence”。希望有针对性地邮寄订购单,即只向有可能购买该书的顾客推销,以降低成本。为了了解顾客情况,公司从50,000个现有顾客中随机抽取1000人发订购单,其中83人购买了该书。要求利用此数据中分析潜在购买者的特征。 对1000个顾客样本进行判别分析,选取“最近一次购买至今的月数”和“购买艺术类书的本数”为判别变量。分类变量“buystatu”:0未购买者,1购买者 求判别函数系数a∝?-1(?2-?1) SPSS输出结果 判别变量和标准化判别函数的相关系数 判别得分的分布 回判结果 协方差阵相等的检验-Box’s test H0: ?1=?2=…=?m 协方差不等时的判别:非线性判别函数 如果仍用线性判别,误判率增大 Books by mail 类中心显著差异的检验Wilks’s ? test 为什么要检验? 类中心距离太近时,误判率高。 3. Bayesian approach 前面两种方法中都没有考虑各类中样本数的差异 没有考虑误判带来的不对称经济损失 当各类样本数不同/误判损失不对称时,是否会影响判别函数的选取或判别规则? Incorp
文档评论(0)