第二章随机模式的分类方法2.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第二章随机模式的分类方法2

基本思想:类先验概率未知,考查先验概率变化对错误率的影响,找出使最小贝叶斯风险最大的先验概率,以这种最坏情况设计分类器。 在实际应用中,有时分类器处理的各种类型样本的“先验概率是变化的”,此时再按照某个固定的条件下的决策规则来进行决策,就得不到最小错误率或最小风险所需要得出的结果。这时就要用“最小最大判决规则”了。 先回顾一下2.3节里,介绍的最小风险判决规则,以及条件平均风险的概念和计算公式: ; 把摸式样本归属于条件平均风险 最小的那一种类型。由上式可以看出, 与类概率密度 、损失函数 、先验概率 有关。如果上述因素是不变的,由足够的样本对分类器进行训练,就可以把特征空间划分成不同的类型区域 。如果先验概率 不是确切知道,在训练过程中,采用多组先验概率,就会得到多组类型区域 的划分结果。 另外,条件平均风险仅反映在样本x条件下,判决为的平均风险,而不能反映把整个特征空间划分成某种类型空间的总的平均风险。; 又由于x的观测值是随机向量 ,决策结果又依赖于x,所以决策作为x的函数可以记为 ,它也是一个随机变量。因此,可以定义“平均风险”为:; 由上式看出: 如果类型区域的划分不同,则平均风险也不同。 由于先验概率不同,对分类器训练结果,有不同的类型区域划分。 所以,平均风险可作为先验概率的函数。(因为对于各类先验概率组合,有一系列的类型区域划分结果,从而可以计算出一系列的平均风险,可以得到与先验概率的函数关系。) 下面研究一下两类问题,用 和 表示不同的类型,它们的先验概率满足: ; 所以,上述平均风险与先验概率的关系就是 与 的关系,一般是非线性关系。假定已经得到这个关系,如右图曲线所示。 如果预先不确切知道先验概率,能否按照使平均风险最小来选择决策方案呢? 这是不可以的!! 这涉及所谓最小最大判决规则。为了说明这个问题,下面针对两类问题进一步研究平均风险 ;由(2.6-2): ;又因为 ,代入上式:; 损失函数 是给定的,由(2.6-5)式和(2.6-6)式看出,如果已经确定类型区域 和 ,则a、b为常数。根据(2.6-4)式,平均风险 是先验概率 的线性函数。由于先验概率 的取值范围为0~1,所以 值变化范围为a~(a+b)。 例如,在上图中,在划分类型区域时, , 。在分类判决过程中,类型区域不再变化,而 可能变化,最大可能的平均风险 ,这是所不希望的。 如何使最大可能的平均风险为最小呢? ; 由(2.6-4)式, ,如果b=0, ,且 与 无关,即最大可能的平均风险达到最小值。但是b=0又意味着由于类型区域的划分使平均风险达到曲线极值,如下图所示。此时 , 为曲线的最大值。; 由上述分析,为了实施最小最大判决规则,必须令b=0。由(2.6-6)式,有:;对于特殊情况: ;序贯分类方法 基本思想:除考虑分类造成的损失外,还考虑特征获取所造成的代价。先用一部分特征分类,然后逐步加入新特征以减少分类损失,同时衡量总的损失,以求得最优的效益。;§2-7 序贯分类;由最小错误概率的Bayes 判决,对于两类问题,似然比为 ;现在来确定A、B的值。 因为;;序贯分类决策规则:;§2-8 决策树—多峰情况 Bayes分类器只能适用于样本分布呈单峰情况,对多峰情况则不行。 若用决策树,可进行如下步骤分类;2、决策树的构造 在构造决策树时,需要考虑以下问题: 1)、如何判断一节点是否为叶子。如右图表示,假定A、B、C、D、E、F各包含50个样本,并有以下的代价矩阵 ;只要经验因子α≤2.25,便有A2(a) ≤A1(a),因此取决策2的代价较小,故应把α分为两类。 一般地决策代价为:;b、根据对样本分布的了解试探确定。如右图所示,将a划分为b,c的方式有两种 c、根据聚类结果来划分。 ;分类器设计的主要问题 ----运用统计决策规则对样本x进行分类 ;1. 判别函数和决策面 定义:用于表达决策规则的函数称为判别函数。 决策面:将划分决策域的边界面称为决策面。可用数学表达式表达为决策面方程。

文档评论(0)

jdy261842 + 关注
实名认证
文档贡献者

分享好文档!

1亿VIP精品文档

相关文档