第6章 近邻法.ppt

  1. 1、本文档共57页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第6章近邻法重点讲义

近邻法错误率分析 可以证明以下关系式成立 即最近邻法的渐近平均错误率的上下界分别为贝叶斯错误率 由于一般情况下 P*很小,因此又可粗略表示成 近邻法错误率分析 计算P的上下限 计算P的下限 最小错误率是贝叶斯错误率P* 近邻法错误率分析 计算P的上限 贝叶斯错误率P*(e|x) m使得错误概率最小 (1)求其下界 并和P*(e|x)联系起来 (2)求P里面的积分和P*联系起来 结论 近邻法错误率分析 k-近邻法决策规则 k-近邻法决策规则 最近邻法可以扩展成找测试样本的k个最近样本作决策依据的方法 基本规则 在所有N个样本中找到与测试样本的k个最近邻者,其中各类别所占个数表示成ki,i=1,…,c 则决策规划是: 如果 ?????????????????????????????????    则决策x∈ωj k近邻一般采用k为奇数,跟投票表决一样,避免因两种票数相等而难以决策。 k-近邻法错误率分析 以上我们从定性分析的角度讨论了最近邻法错误率问题,下面以同样的方法更简略地讨论k-近邻法的渐近平均错误率。 对于两类别问题,错误率可以改写成 推广到k-邻域的情况,则错误出现在k个邻域样本中,正确的类别所占样本未过半数,得到 6.3 改进的近邻法 近邻法缺点 存储量大 要存储的模板很多 计算量大 每个测试样本要对每个模板计算一次相似度 改进的近邻法 改进方法的两种原理 一种是对样本集进行组织与整理,分群分层,尽可能将计算压缩到在接近测试样本邻域的小范围内,避免盲目地与训练样本集中每个样本进行距离计算。 另一种原理则是在原有样本集中挑选出对分类计算有效的样本,使样本总数合理地减少,以同时达到既减少计算量,又减少存储量的双重效果。 改进的近邻法 改进的近邻法 快速搜索近邻法 剪辑近邻法 压缩近邻法 改进的近邻法:快速搜索近邻法 快速搜索近邻法 这种方法着眼于只解决减少计算量,但没有达到减少存储量的要求。 基本思想 是将样本集按邻近关系分解成组,给出每组的质心所在,以及组内样本至该质心的最大距离 这些组又可形成层次结构,即组又分子组 因而待识别样本可将搜索近邻的范围从某一大组,逐渐深入到其中的子组,直至树的叶结点所代表的组,确定其相邻关系 改进的近邻法:快速搜索近邻法 样本集分级分解 根据以上基本思想,先对样本集进行分级分解 分级分解过程可列举如下 首先将整个样本分成l个子集,每个子集又分为它的l个子集 如此进行若干次就能建立起一个样本集的树形结构 分成子集的原则是该子集内的样本尽可能聚成堆,这可用聚类方法实现。 改进的近邻法:快速搜索近邻法 结点参数: 树形结构,每个结点表示一样本子集,描述该子集的参数是: 一个树形结构样本集,其中分支数l=3 改进的近邻法:快速搜索近邻法 实现快速搜索近邻的基本思路 需要有方法快速判断某个样本子集是否是该待识样本的可能近邻样本集,从而可将无关的样本子集尽快排除。 另一方面在某样本子集内寻找哪个样本是近邻时,需快速排除不可能为近邻的样本 这两个快速判别算法可用两个规则表示 改进的近邻法:快速搜索近邻法 实现快速搜索算法的两个规则 规则1:如果存在 则 ???????不可能是x的近邻。其中B是待识别样本在搜索近邻过程中的当前近邻距离,B在搜索过程中不断改变与缩小。算法开始可将B设为无穷大。 ??????????表示待识样本x到结点 ???的均值点距离。 改进的近邻法:快速搜索近邻法 改进的近邻法:快速搜索近邻法 实现快速搜索算法的两个规则 规则2: 如果 其中xi∈ ???,则xi不可能是x的近邻。 改进的近邻法:快速搜索近邻法 搜索算法的大体过程 当搜索树形样本集结构由高层次向低层次深入时,对同一层次的所有结点,可以利用规则1排除掉一些不可能包含待识别样本的近邻的结点(样本子集)。 但是这往往不能做到只留下唯一的待搜索结点,因此必须选择其中某一结点先深入搜索,以类似于深度优先的方法确定搜索路径直至叶结点。 然而在该叶结点中找到的近邻并不能保证确实是全样本集中的最近邻者,所找到的该近邻样本需要在那些有可能包含最近邻的样本子集中核对与修正,直至找到真正的最近邻样本为止。 改进的近邻法:快速搜索近邻法 树搜索算法步骤: 步骤1: [初始化]置B=∞,L=1(当前层次),p=0(确定当前结点)。 步骤2: [置后选待搜索结点]把当前结点的所有直接后继结点放入层的一目录表中,并对这些结点计算D(x,Mp)。 步骤3: [排除无关结点]对层目录表中的每个结点P,用规则1将与近邻无缘的结点从目录表中清除。 改进的近邻法:快速搜索近邻法 树搜索算法步骤: 步骤4: [路径选择]如该层次目录表中有不止一个结点,选其中D(x,Mp)

文档评论(0)

dajuhyy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档