- 15
- 0
- 约6.65千字
- 约 91页
- 2018-09-10 发布于广西
- 举报
Bayes判别的基本思想是认为所有G个类别都是空间中互斥的子域,每个观测都是空间中的一个点。在考虑先验概率的前提下,利用Bayes公式按照一定准则构造一个判别函数,分别计算该样品落入各个子域的概率,所有概率中最大的一类就被认为是该样品所属的类别。 Bayes判别准则: 使错判造成的损失为最小 Bayes判别 错判损失如何定义? 设有G个总体:ξ1,ξ2,…,ξg,…,ξG 其中ξg 的 p 维分布密度函数 ξg ~ fg (x1, x2,…, xp)≡ fg (x) g =1, 2,…,G 设D1, D2,…, DG是p维空间R p的一个划分: D1, D2,…, DG 互不相容 D1∪D2∪…∪DG = R p 对新的样品x的判别规则: 若x∈Dg,则判x∈ξg , g=1,2,…,G 划 分 损失函数 以L(h|g)表示样品来自第g个总体,而被错判为第h个总体所造成的损失 h=g h≠g 错判概率 发生错判的概率 b c g h 先验概率 第g个总体出现的先验概率为 q g , g = 1, 2,…, G Bayes解 所谓Bayes判别法: 就是要选择D1 , D2 ,… , DG ,使平均损失 I(D1, D2,…, DG) 达到最小, 常称此解为Bayes解 最小Bayes解的简化 引入 Eh(x) 要求 Bayes 解, 只要求得使 Eh(x) 为最小的h值 取定样品 x 下, 使Eh(x)为最小的Bayes解, 也就是使后验平均损失最小的Bayes解 L(h|g)的简化 各种错判的损失一样,都定义为1 Eh(x)的简化 求Eh(x)的最小值等价于 求q h f h(x)的最大值 相当于求后验概率的最大值 Bayes判别规则 若q h f h(x)= max q g f g(x) , 则: 判 x ∈ ξh , h=1, 2,…,G 两类判别 假定ξg~N p(μg ,∑), g = 1,2, 对新样品x: 若q1 f1(x)>q2 f2(x),则: 判x∈ξ1 若q1 f1(x)<q2 f2(x),则: 判x∈ξ2 若q1 f1(x) = q2 f2(x),则: 任 判 等价于 若令 又等价于 多类判别 假定ξg~Np(μg ,∑), g=1, 2,…,G 两边取对数,得判别函数 当μg ,∑ 未知时,取样本作估计,则判别函数为: 多类判别规则 若uh(x)= max u g(x) , 则判 x ∈ξh , h=1, 2,…,G 先验概率的常用取法 1.先验概率取样品出现的频率: q g = n g/n , g = 1, 2,…,G 2.认为总体以等概率出现,即 q g = 1/G , g = 1, 2,…,G 距离判别、Fisher判别与 Bayes判别 当总体为等协方差的正态分布,且先验概率q g相等时,Bayes判别即为距离判别 在具有等协方差的两个正态总体的判别问题中,Bayes判别函数也是Fisher判别函数 逐步判别 变量的选择和逐步判别 变量的选择是判别分析中的一个重要的问题,变量选择是否恰当,是判别分析效果优劣的关键。 如果在某个判别问题中,将起最重要的变量忽略了,相应的判别函数的效果一定不好。 如果判别变量个数太多,计算量必然大,会影响估计的精度。特别当引入了一些判别能力不强的变量时,还会严重地影响判别的效果。 逐步判别的步骤(1) 第一步:通过计算单变量的Λ统计量(组内离差平方和与总离差平方和的比),逐步选择判别变量 Λ统计量最小者首先进入模型。 逐步判别的步骤(2) 第二步:分别计算未被选中的其它变量与选中变量x1的Λ统计量 统计量Λ1i的值最小者与x1搭配进入模型。 逐步判别的步骤(3) 第三步:类推假设已经有q+1个变量进入了模型,要考虑较早选入模型的变量的重要性是否有较大的变化,应及时将其从模型中剔除。其原则与引入相同。但删除统计量Λ的值最大者。 第四步:进行判别分析。 判别分析的主要程序 1. 选择变量 和判别分析的目的密切相关 反映要判类变量的特征 在不同研究对象上的值有明显的差异 2. 确定分析样本和验证样本 将样本分成两部分,一部分用于确定判别函数,另一部分用于检查判别的效果。如果样本量很
原创力文档

文档评论(0)