4b-非线性分类器.ppt

  1. 1、本文档共45页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
4.3 近邻法 4.3.1 最近邻法 4.3.2 K-近邻法及错误率分析 4.3.3 减少计算量和存储量的方法 问题的提出及解决 前面利用每一类的“代表点”设计分段线性分类器是最简单而直接的设计方法, 这类方法的缺点是所选择的“代表点”不一定能很好的代表各个类,其结果是使所设计分类器的错误率增加. 4.3.1 最近邻法 1 最近邻决策规则 则决策规则可以写为 : 如图:假设有N个样本, 被分为3类. 2 最近邻法的错误率分析 此时我们可以证明以下关系 P* ≤ P ≤ P*( 2- c/(c-1) P*) 其中P* 为贝叶斯错误率, c为类数 下面用图形来说明最邻近法错误率上下界与贝叶斯错误率的关系 4.3.2 k-近邻法 k-近邻法是最近邻法的一个推广. 这个方法就是取未知样本x的k个近邻, 看这k个近邻多数属于哪一类, 就把x归为哪一类. 2. k- 近邻法的错误率分析 用k 近邻法决策 根据最近邻法错误率分析, 当样本数N 趋于∞时, P = lim PN (e) N ∞ 则有 p*= p = p*[2- c/(c-1)] 4.3.3 减少计算量和存储量的方法 近邻法的一个缺点就是计算量大, 未知样本x要逐个与全体样本X中每个样本计算欧氏距离. 为了减少计算的次数, 也就是不必计算x到样本集X中每个样本xi 的距离, 只需要计算其中一部分的距离就可以找出最近邻, 于是引出了快速搜索近邻法. 问题的提出: 从上一节我们可以看到, 剪辑的结果只是去掉了两类边界附近的样本, 而靠近两类中心的样本几乎没有去掉. 按照近邻规则, 这些样本中的大多数对分类决策没有什么作用. 因此在剪辑的基础上, 再去掉一部分这样的样本则有利于进一步缩短计算时间和降低存储要求. 一般称这类方法为压缩近邻法. 作业4 2) 将算法扩展到 k-近邻法的情况. 这只需要对前述算法做部分修改就可以完成. 首先对B做修正, 使它在现在的程序中是x到第k个近邻的距离. 然后当在步骤6中每计算一个距离之后, 就与当前执行近邻表中的k个近邻距离做比较, 若这个新计算的距离小于近邻表中任何一个时, 则从近邻表中去掉最大的一个. 算法的其它部分与最近邻法相同. + x 图中两类样本相互交错 如何解决 2 剪辑近邻法 将未知样本x用近邻法分类是不好处理的. 解决思路: 如果能够剪辑掉两类边界附近交错的一些样本, 并使得剩下的样本形成两个好的聚类, 而且每个聚类中的样本都属于同一类, 它们的分界面十分接近贝叶斯决策面, 那么可以提高利用近邻规则分类的性能. 下面介绍两种剪辑近邻法: 1) . 两分剪辑近邻法 2) . 重复剪辑近邻法 1) 两分剪辑近邻法 在两分剪辑近邻法中, 假定给定的样本集X 被分成两个独立的样本集- 考试集X T 和参考集X R . 在参考集中的样本完成参考任务, 在考试集中完成考试任务,并且去掉考试中不合格的样本. 将考试中保留的合格样本构成剪辑样本集, 并利用该样本集对未知样本x利用近邻法作分类决策. 基本思路: 步骤1 假定样本集X 中的每个样本不是被用概率a分到考试集X T 中, 就是用概率1-a分到参考集X R 中 x 步骤2 利用参考集X R 中的样本对考试集X T中的每个样本用近邻法进行分类决策 *x 步骤 3 剪辑掉考试集X T中被参考集X R利用最近邻法错分类的样本, 然后将X T 中剩余样本构成剪辑样本集 X NTE . * x 步骤 4 利用剪辑样本集X NTE 和最近邻规则对未知样本x作分类决策. * x 剪辑近邻法的错误率分析 剪辑近邻法的条件错误率为 PkE (e | x) = P ( e | x) / 2 [ 1- Pk ( e | x) ] 由上式可见 , 剪辑近邻法的错误率总是小于等于没有剪辑的近邻法 , 即有 PkE ( e) ≤ P ( e ) 尤其是在P ( e )很小时, 比如P ( e ) 0.1 , 则可推知 PkE ( e) ≈ P ( e ) / 2 由于没有剪辑的近邻法错误率P ( e )的上界为2p*, 因此经过近邻规则剪辑的近邻法错误率接近贝叶斯错误率P*, 即 PkE ( e ) ≈ P* 2) 重复剪辑近邻法 重复剪辑近邻法是两分剪辑近邻法的扩展. 只要样本数足够多, 我们可以重复地执行剪辑程序, 以进一步提高近邻法规则分类的性能. 只是将前一步剪辑

文档评论(0)

fpiaovxingl + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档