网站大量收购独家精品文档,联系QQ:2885784924

第十一章 判别及分类.ppt

  1. 1、本文档共115页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
目的: 从不同总体(或类别)中刻画个体的特征。 尽量从不同类别使用判别器或分类器分离开来. Goal of classification: 把不同个体分类到不同类别中. 问题是找到一个好的规则,能最优的对新个体进行分类! 我们把第一类的个体看成一个总体 ?1 and 第二类的个体看成一个总体 ?2. 这两个总体对应的概率密度函数为f1(X) and f2(X), and consequently, 这样可以就可以讨论如何指定个体属于那个类. Example 11.1 考虑某城镇中两类人群: ?1, 割草机拥有者, and ? 2, those 不拥有者. In order to identify the best prospect for an intensive sales campaign, 生产商 is interested in classifying families as prospective owners or nonowners on the basis of x 1=income and x 2=lot size. Random samples of n 1=12 current owners and n 2=12 current nonowners are selected. The sample observations yield the scatter plot (Figure 11.1). Remark 1. 一个好的判别方法应该产生少数错误分类. 2. 要考虑先验概率 . 3. 考虑误判的成本或代价. (e.g. diagnose disease) 基本思想 令 f1(X) and f2(X) 分别为两总体 ?1 and ?2 对应的密度函数. 我们的目的是要把X指定给其中一个总体中.令 Ω 为全空间. 令R1 为x的一个集合, 当x属于R1时,我们把对象x分配给总体 ?1 ,反之如果属于 R2=Ω-R1 则分配给总体 ?2. 假定 集合 R1 和 R2 互斥,构成全空间. 令 p1 为 ?1的先验概率 and p2 为 ?2的先验概率, 其中 p1 + p2 = 1. 那么 P(观测对象被正确地划入 ?1) = P(X ? R1 | ?1)P(?1) = P(1|1) p1 P(观测对象被错误划入 ?1) = P(X ? R1 | ?2 )P(?2 ) = P(1|2) p2 P(观测对象被正确划入?2 ) = P(X ? R2 | ?2 )P(?2 ) = P(2 | 2) p2 P(观测对象被错误划入 ?2 ) = P(X ? R2 | ?1)P(?1) = P(2 |1) p1 (11-3) 错分代价可以代价矩阵来表示 : 其中 c(2|1) 为属于 ?1 被错误划入 ?2 的代价 ,and c(1|2)为属于 ?2 被错误划入 ?1 的代价 . 那么平均的或期望的错分代价为 (ECM) ECM = c(2|1)P(2 |1) p1 + c(1|2)P(1| 2) p2 (11-5) 一个合理的分类法则应该有最小或尽可能小的ECM. 结论 11.1. 是ECM达到最小的区域R1 and R2 由下列不等式确定: Proof of the result 11.1 We need to show that the regions R1 and R2 that minimize the ECM are defined by the vlues x for which the following inequalities hold: Substituting the expressions for P(2|1) and P(1|2) into (11-5) gives 假设有一个新观测点 x 0 ,其中 f 1(x 0 ) = .3 and f 2 (x 0 ) = .4. 问该点应该划入那个总体 ? Then 我们发现 x 0 ? R1 ,因此应该将其分入?1 Other criteria 总错误概率(TPM)最小化原则 。 TPM = P(错分 ?1 的观测值或错分 ?2 的观测值) = p1 ?R1 f1 (x)dx +p2 ?R2 f2 (x)dx (11-8) 数学上这个问题等价于在错分代价相同情况下师期望错分代价最小化。因此,这种情况下的最优区域由 (11-7)中的(b) 给出. 最

文档评论(0)

kehan123 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档