03第三章 非参数判别分类方法3.6专用课件.ppt

03第三章 非参数判别分类方法3.6专用课件.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
重点 最近邻法决策规划 k—近邻法决策规划 最近邻法错误率分析 *中国矿业大学 计算机科学与技术学院 第三章 非参数判别分类方法 3.6 近邻法 自动分类的基本方法有两大类 近邻法则在原理上属于模板匹配 (1)将特征空间划分成决策域 (2)模板匹配 近邻法的缺点:计算量大,存储量大 近邻法的优点:在模板数量很大时其错误率指标还是相当不错的。 近邻法的改进方法 弄清楚近邻法的定义(包括k近邻法),与基本做法 弄清“近邻法性能好”是在什么意义上讲的。知道渐进平均错误率的定义 快速搜索方法是使用怎样的原理? 剪辑近邻法的原理是什么? 而压缩近邻法与剪辑近邻法有什么不同之处? 3.6.1 近邻法原理及其决策规则 近邻法是由Cover和Hart于1968年提出的,随后得到理论上深入的分析与研究,是非参数法中最重要的方法之一。这一节将讨论其基本原理,错误率分析及若干改进方法。 将与测试样本最近邻样本的类别作为决策的方法称为最近邻法。对一个C类别问题,每类有Ni个样本,i=1,…,C, 则第i类ωi的判别函数 其中Xik表示是ωi类的第k个样本。 如果 则决策X∈ωj 决策规则为: 基本规则是,在所有N个样本中找到与测试样本的k个最近邻者,其中各类别所占个数表示成ki,i=1,…,c,则决策规划是: 如果 则决策X∈ωj k近邻一般采用k为奇数,跟投票表决一样,避免因两种票数相等而难以决策。 计算错误的偶然性:因为训练样本集的数量总是有限的,有时多一个少一个训练样本对测试样本分类的结果影响很大。 利用训练样本数量增至极大,来对其性能进行评价。 渐近平均错误率 3.6.2 近邻法错误率分析 如果所用训练样本集的样本数量N极大,即N→∞时,可以想像X将趋向于X,或者说处于以X为中心的极小邻域内,此时分析错误率问题就简化为在X样本条件下X与一个X(X的极限条件)分属不同类别的问题。如果样本X的两类别后验概率分别为P(ω1|X)与P(ω2|X),那么对X值,在N→∞条件下,发生错误决策的概率为: (3.6-1) 渐近平均错误率,是PN(e)在N→∞的极限。 与基于最小错误率的贝叶斯决策方法对比 其中 而 则 (3.6-2) (3.6-3) 由 可得 上式减去 从式(3.6-5)可见在一般情况下△P是大于零的值, 只要P(ω1|X)>P(ω2|X)>0。 有以下两种例外情况△P=0, 这两种情况是P(ω1|X)=1或P(ω1|X)=P(ω2|X)=1/2。 (3.6-4) (3.6-5) 思考 什么情况下P(ω1|X)=1或P(ω2|X)=1? P(ω1|X)= P(ω2|X)会出现什么什么情况? 答:一般来说,在某一类样本分布密集区,某一类的后验概率接近或等于1。此时,基于最小错误率贝叶斯决策基本没错,而近邻法出错可能也很小。而后验概率近似相等一般出现在两类分布的交界处,此时分类没有依据,因此基于最小错误率的贝叶斯决策也无能为力了,近邻法也就与贝叶斯决策平起平坐了。 当N→∞时,最近邻法的渐近平均错误率的下界是贝叶斯错误率,这发生在样本对某类别后验概率处处为1的情况或各类后验概率相等的情况。 在其它条件下,最近邻法的错误率要高于贝叶斯错误率,可以证明以下关系式成立。 一般情况下P*很小 最近邻法错误率上下界与贝叶斯错误率的关系 k—近邻法错误率分析 对于两类别问题 k-邻域的情况,则错误出现在k个邻域样本中,正确的类别所占样本未过半数,得到 (3.6-6) 其中 (3.6-7) 将(3.6-7)与(3.6-6)相比较,(3.6-6)相当于(3.6-7)中k=1的情况,而在(3.6-7)中当k增大时PkN→∞(e|X)是单调递减的。因此可以得出结论,在N→∞的条件下,k-近邻法的错误率要低于最近邻法,从图中也可看出,无论是最近邻法,还是k-近邻法,其错误率的上下界都是在一倍到两倍贝叶斯决策方法的错误率范围内。 K-近邻法错误率上下界与贝叶斯错误率的关系 3.6.3 改进的近邻法 近邻法的严重弱点与问题:需要存储全部训练样本,以及繁重的距离计算量。 改进的方法大致分为两种原理: (1)对样本集进行组织与整理,分群分层,尽可能将计算压缩到在接近测试样本邻域的小范围内,避免盲目地与训练样本集中每个样本进行距离计算。 (2)在原有样本集中挑选出对分类计算有效的样本,使样本总数合理地减少,以同时达到既减少计算量,又减少存储量的双重效果。 3.6.3.1 快速搜索近邻法 这种方法着眼于只解决减少计算量,但没有达到减少存储量的要求。其基本思想是将样本集按邻近关系分解成组,给出每组的质心所在,以及组内样本至该质心的最大距离。这些组又可形成层次结构,即组又分子组,因而待识别样本可将搜索近邻的范围从某一大组,逐

文档评论(0)

ustt001 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档