9_2判别分析概要.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
9_2判别分析概要

9-2判别分析;;主要内容;1 基本原理;;错判率的高低的决定因素 主观因素 分界线的位置要正确。否则会使误判率增大,是完全可控的因素 主观因素是可控的 客观因素 如果两群点均值离开的远一些,有利于判别,错判率会较低一些。如果两群点都紧紧地靠在各自的均值附近,也一定是有利于判别的,极端情况是两群点没有交互交叉的情况,此时可以做到错判率为0,客观因素是不可控的 判别指标的选择 维度高一些,分界线的分辨率更高一些(如下图) 指标也不是越多越好,指标太多了,改变不了分辨率,却大大增加了计算量 ;2 常用判别法;计算X到G1、G2总体的距离,分别记为 和 ,按距离最近的准则判别归类,可写成: 如果距离定义采用欧氏距离,则 如采用马氏距离,则 一般令 此时判别准则可以写为 ;设μ(1)、 μ(2), ∑(1)、 ∑(2)分别为G1、G2的均值向量和协差阵。 当∑(1)= ∑(2) = ∑,W(x)为线性函数,称之为线性判别函数 当∑(1) ≠ ∑(2),W(x)为非线性函数 现实中往往不清楚均值向量与协差阵,一般依据样本推断得到 (2)多个总体的距离判别法 依据两总体距离判别方法进行推广;2.2Fisher判别法 特点:以Fisher准则为标准来评选判别函数的 Fisher准则:较优的判别函数应该能根据待判对象的n个指标最大限度地将它所属的类与其他类区分开来 判别函数多采用线性判别函数 实现思想: 根据已知信息对判别函数进行训练和学习,依据类间距离最大、类内距离最小的原则确定线性判别函数,从而得到函数关系式中的系数值,确定判别函数 经判别函数划分后,同类样品在空间上的分布集中,而不同类之间距离较远,差别明显 先投影,后计算距离的方法 ;算法说明: 设样本观测数据具有p维,借助方差分析的思想构造一个判别函数(或称为判别式) ,其中系数 确定的原则是使两组间区别最大而使每个组内离差最小。 有了判别式,对于一个新样本,将它的p个指标值带入判别式中求出y值,然后与判别临界值进行比较,就可以判断它属于哪一个总体。 设有两个总体G1和G2,从两个总体中分别抽取n1、n2个样品,每个样品有p个指标,将属于两不???总体的样本观测值带入判别式中,可以得到 为了使判别函数能够很好的区别来自不同的总体,希望 总体均值之差的平方 越大越好 组内离差平方和 越小越好 基于Fisher准则函数(下式)取得最大值的要求可以求得系数ci ;判别函数的确定: 当维数与样本数都很大时,可采用贝叶斯决策规则,获得一种在一维空间的“最优”分类器 当上述条件不满足时,有其他几种常见分界阈值点y0确定方法,如: 判别准则 将样本值带入判别式得到y,比较y与y0,确定所属分组。 局限性 样本个数不宜过少,否则影响判别式优良性 指标不宜过多,否则影响预报稳定性;2.3贝叶斯判别法 实现思想: 通过计算新给样品属于各总体的条件概率p(i|x),i=1,2,…,k,再比较这k个概率的大小,然后将新样品判归为来自概率最大的总体。 算法说明 设有k个总体G1,G2,…,Gk,它们的先验概率分别为q1,q2,…,qk。各总体的密度函数分别为:f1(x), f2(x),…, fk(x) ,在观测到一个样品x的情况下,计算它来自第g总体的后验概率: 并且当 时,则判X来自第h总体 有时也可以使用错判损失最小的概念做判别函数 使用错判损失最小的概念作判决函数。把x错判归第h总体的平均损失定义为:[式中损失函数L(h/g)表示本来是第g总体的样品错判为第h总体的损失];应该有 当h=g时,有L(h/g) =0 当h≠g时,有L(h/g)0 建立判别准则:如果 则判定x来自第h总体 在实际应用中,L(h/g)并不容易得到,故常常在数学模型中假设各种错判的损失皆相等,即 寻找h使后验概率最大和使错判的平均损失最小是等价的,即 Bayes判别法的特点与局限性: 利用以往对研究对象的认识——先验概率来辅助判断,以便得到更精确的结论 需要已知条件概率 曲面为超曲面,形状复杂难以计算和构造 ;2.4逐步判别法 依据: 变量在判别式中起的作用是不同的,各变量在判别式中的判别能力有区别,判别能力低微的变量不宜保留,判别能力突出的变量不能遗漏。 特点: 通过引入和剔除变量来建立判别函数,最终生成的判别函数中只包括主要的变量 基本思想: 采用“有进有出”的算法,即逐步引入变量,每次引入一个“最重要”的变量进入判别式 同时考虑较早引入判别式的某些变量,其判别能力随新引入

文档评论(0)

yaocen + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档