模式识别导论(四).ppt.ppt

  1. 1、本文档共57页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
模式识别导论(四).ppt

第四章 贝叶斯决策理论 贝叶斯分类器 正态分布决策理论 关于分类的错误率分析 最小风险Bayes分类器 Bayes分类器算法和例题 聂曼-皮尔逊判别准则 最大最小判别准则 决策树 序贯分类 判别函数: §4-3 关于分类器的错误率分析 1、一般错误率分析: §4-4 最小风险Bayes分类器 假定要判断某人是正常(ω1)还是肺病患者(ω2),于是在判断中可能出现以下情况: 第一类,判对(正常→正常) λ11 ;第二类,判错(正常→肺病) λ21 ; 第三类,判对(肺病→肺病) λ22;第四类,判错(肺病→正常) λ12 。 在判断时,除了能做出“是” ωi类或“不是” ωi类的动作以外,还可以做出“拒识”的动作。为了更好地研究最小风险分类器,我们先说明几个概念: 二类问题:把x归于ω1时风险: 把x归于ω2时风险: §4-5 Bayes分类的算法(假定各类样本服从正态分布) 1.输入类数M;特征数n,待分样本数m. 2.输入训练样本数N和训练集资料矩阵X(N×n)。并计算有关参数。 3.计算矩阵y中各类的后验概率。 4.若按最小错误率原则分类,则可根据 3 的结果判定y中各类样本的类别。 5.若按最小风险原则分类,则输入各值,并计算y中各样本属于各类时的风险并判定各样本类别。 解2、假定两类协方差矩阵相等∑=∑1+∑2 作业:①在下列条件下,求待定样本x=(2,0)T的类别,画出分界线,编程上机。 1、二类协方差相等,2、二类协方差不等。 作业:②有训练集资料矩阵如下表所示,现已知, N=9、N1=N2= N3=3、n=2、M=3,试问,X=(-2,2)T应属于哪一类? 要求:用两种解法a、三类协方差不等;b、三类协方差相等。 编程上机,画出三类的分界线。 §4-6 在一类错误率固定使另一类错误率最小的判别准则(聂曼-皮尔逊判决neyman-pearson) 例:两类的模式分布为二维正态 协方差矩阵为单位矩阵∑1=∑2=I,设ε2=0.09求聂曼皮尔逊准则 T. 解: §4-7最大最小判别准则:前边的讨论都是假定先验概率不变,现在讨论在P(ωi)变化时如何使最大可能风险最小,先验概率P(ω1)与风险R间的变化关系如下: 这样,就得出最小风险与先验概率的关系曲线,如图所示: 讨论: §4-8 决策树—多峰情况 Bayes分类器只能适用于样本分布呈单峰情况,对多峰情况则不行。 若用决策树,可进行如下步骤分类 2、决策树的构造 在构造决策树时,需要考虑以下问题: 1)、如何判断一节点是否为叶子。如右图表示,假定A、B、C、D、E、F各包含50个样本,并有以下的代价矩阵 对于节点a,可以作出以下两个决策之一: 决策1,a不再分割 决策2,a分为两类 决策1的代价为 A1(a)=Ca ─节点a的代价 决策2的代价为 A2(a)=α(Cb+Cc) ─节点b,c的代价和 其中, α为一经验因子,用以防止无限分割下去 只要经验因子α≤2.25,便有A2(a) ≤A1(a),因此取决策2的代价较小,故应把α分为两类。 一般地决策代价为: 2)、选择节点的分割方式: a、根据经验确定。例如,全部样本分为三类,其代价矩阵为 b、根据对样本分布的了解试探确定。如右图所示,将a划分为b,c的方式有两种 c、根据聚类结果来划分。 3)、如何确定各节点分类器。 原则: ①、分类器应尽量简单,因此,多采用线性分类器, ②、尽量减小分类时所使用的特征,选用最有效的特征进行分类 §4-9 序贯分类 迄今为止所讨论的分类问题,关于待分类样本的所有信息都是一次性提供的。但是,在许多实际问题中,观察实际上是序贯的。随着时间的推移可以得到越来越多的信息。 假设对样品进行第 i 次观察获取一序列特征为:X=(x1,x2,…,xi)T 则对于ω1,ω2两类问题, 若X ∈ ω1,则判决完毕 若X∈ ω2 ,则判决完毕 若X不属ω1也不属ω2 ,则不能判决,进行第i+1次观察,得X=(x1,x2,…,xi,,x i+1)T ,再重复上面的判决,直到所有的样品分类完毕为止。 这样做的好处是使那些在二类边界附近的样本不会因某种偶然的微小变化而误判,当然这是以多次观察为代价的。 现在来确定A、B的值。 因为 序贯分类决策规则: 上下门限A、B是由设计给定的错误概率P1(e), P2(e)来确定的,Wald 已证明,观察次数不会很大,它收敛的很快。 特征 x2 1 2 3 1 2 3 1 2 3 训练样本号k ω3 ω2 ω1 类别

文档评论(0)

youbika + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档