第11章判别与分类.pptVIP

  • 2
  • 0
  • 约2.98千字
  • 约 115页
  • 2017-04-28 发布于北京
  • 举报
第11章判别与分类

*;*;*;*;*;*;*;*;;*;目的: 从不同总体(或类别)中刻画个体的特征。 尽量从不同类别使用判别器或分类器分离开来. Goal of classification: 把不同个体分类到不同类别中. 问题是找到一个好的规则,能最优的对新个体进行分类!;*;我们把第一类的个体看成一个总体 ?1 and 第二类的个体看成一个总体 ?2. 这两个总体对应的概率密度函数为f1(X) and f2(X), and consequently, 这样可以就可以讨论如何指定个体属于那个类. ;Example 11.1 考虑某城镇中两类人群: ?1, 割草机拥有者, and ? 2, those 不拥有者. In order to identify the best prospect for an intensive sales campaign, 生产商 is interested in classifying families as prospective owners or nonowners on the basis of x 1=income and x 2=lot size. Random samples of n 1=12 current owners and n 2=12 current nonowners are selected. The sample observations yield the scatter plot (Figure 11.1). ;Remark 1. 一个好的判别方法应该产生少数错误分类. 2. 要考虑先验概率 . 3. 考虑误判的成本或代价. (e.g. diagnose disease) ;基本思想 令 f1(X) and f2(X) 分别为两总体 ?1 and ?2 对应的密度函数. 我们的目的是要把X指定给其中一个总体中.令 Ω 为全空间. 令R1 为x的一个集合, 当x属于R1时,我们把对象x分配给总体 ?1 ,反之如果属于 R2=Ω-R1 则分配给总体 ?2. 假定 集合 R1 和 R2 互斥,构成全空间. ;令 p1 为 ?1的先验概率 and p2 为 ?2的先验概率, 其中 p1 + p2 = 1. 那么 P(观测对象被正确地划入 ?1) = P(X ? R1 | ?1)P(?1) = P(1|1) p1 P(观测对象被错误划入 ?1) = P(X ? R1 | ?2 )P(?2 ) = P(1|2) p2 P(观测对象被正确划入?2 ) = P(X ? R2 | ?2 )P(?2 ) = P(2 | 2) p2 P(观测对象被错误划入 ?2 ) = P(X ? R2 | ?1)P(?1) = P(2 |1) p1 (11-3);错分代价可以代价矩阵来表示 : 其中 c(2|1) 为属于 ?1 被错误划入 ?2 的代价 ,and c(1|2)为属于 ?2 被错误划入 ?1 的代价 . ;那么平均的或期望的错分代价为 (ECM) ECM = c(2|1)P(2 |1) p1 + c(1|2)P(1| 2) p2 (11-5) 一个合理的分类法则应该有最小或尽可能小的ECM. 结论 11.1. 是ECM达到最小的区域R1 and R2 由下列不等式确定: ;Proof of the result 11.1;We get the result 11.1.;11-7;;假设有一个新??测点 x 0 ,其中 f 1(x 0 ) = .3 and f 2 (x 0 ) = .4. 问该点应该划入那个总体 ? Then 我们发现 x 0 ? R1 ,因此应该将其分入?1 ;Other criteria ;最大后验概率原则 ;注释 : 相当于采用(11-7)中的总错分概率的法则(b),因为上式中分母相同. 但是,在观测到x0 后再计算总体 ?1 和 ?2 的概率,这对识别不很明确的分配来说常常有用。;11.3 两正态总体的分类 ;;;Result 11.2;Proof of 11.2; 当总体参数 ?1, ?2 , and ? 未知. Wald and Anderson suggest 建议将总体参数用样本对应量来代替. ;?1 : 正常人群 n1=30 ?2 : A型血友病犯者 n2=22 ;调查信息 因此代价相同,先验概率相同情况下 得到, ;分配规则 如果 x0 = [?.210, ? .044]‘, then y?0 = ?6.62 ?4

文档评论(0)

1亿VIP精品文档

相关文档