7 近邻法.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
剪辑近邻法 2.利用k-近邻法进行剪辑得到的样本集进行分类,则在N→∞及k→∞,且K/N→0的条件下有 PkE(e)= P* 该式表明k很大时,剪辑样本法的错误率可收敛于最优情况P*。当然实际上k值不能取得太大。 3.多类情况,剪辑效果更好。 7.2 k-近邻法 * 压缩近邻法 从上述讨论中可以看出,剪辑近邻法所得到的剪辑样本集在样本数量的压缩方面并不十分明显,它的作用在于将原样本集中处于边界处的样本删除掉,但靠近两类中心的大部分样本仍被保留下来。 然而按近邻规则来看,这些样本中的大多数对分类决策没什么用处,如能在剪辑的基础上再去掉一部分这样的样本,将有助于进一步缩短计算时间与压缩存储量,这种方法称为压缩近邻法。 7.2 k-近邻法 * 压缩近邻法 压缩近邻法压缩样本的思想很简单,它利用现有样本集,逐渐生成一个新的样本集。使该样本集在保留最少量样本的条件下, 仍能对原有样本的全部用最近邻法正确分类,那末该样本集也就能对待识别样本进行分类, 并保持正常识别率。该算法的作法也十分简单,它定义两个存储器,一个用来存放即将生成的样本集,称为Store;另一存储器则存放原样本集,称为Grabbag。 7.2 k-近邻法 * 压缩近邻法 其算法是: 1.[初始化]Store是空集,原样本集存入Grabbag;从Grabbag中任意选择一样本放入Store中作为新样本集的第一个样本。 2.[样本集生成]在Grabbag中取出第i个样本用Store中的当前样本集按最近邻法分类。若分类错误,则将该样本从Grabbag转入Store中,若分类正确,则将该样本放回Grabbag中,对Grabbag中所有样本重复上述过程。 7.2 k-近邻法 * 压缩近邻法 其算法是: 3.[结束过程]若Grabbag中所有样本在执行第二步时没有发生转入Store的现象,或Grabbag已成空集,则算法终止,否则转入第二步。 在算法终止后,Store中的样本集作为压缩样本集,可用来对待识别样本按最近邻法分类。 7.2 k-近邻法 * 压缩近邻法 7.2 k-近邻法 * 压缩近邻法 图5与图7显示了用压缩近邻法得到的样本集及其分界决策面。其中图5所示为一个两类别问题用剪辑近邻法得到的样本集。图中虚线表示贝叶斯决策面,实线为最近邻法相应的决策域边界。图6则是图5中的剪辑样本经压缩近邻法生成的压缩样本集。 7.2 k-近邻法 * 压缩近邻法 图5与图6显示了用压缩近邻法得到的样本集及其分界决策面。其中图5所示为一个两类别问题用剪辑近邻法得到的样本集。图中虚线表示贝叶斯决策面,实线为最近邻法相应的决策域边界。图6则是图5中的剪辑样本经压缩近邻法生成的压缩样本集。从中可看出样本的数量极大地减少了。图中还画出了贝叶斯分界面与压缩后的近邻法决策面,它虽然比剪辑样本的近邻产生的决策面偏离贝叶斯决策面要大些,但所需样本数量却大大减少了, 7.2 k-近邻法 * 压缩近邻法 从中可看出样本的数量极大地减少了。图中还画出了贝叶斯分界面与压缩后的近邻法决策面,它虽然比剪辑样本的近邻产生的决策面偏离贝叶斯决策面要大些,但所需样本数量却大大减少了, 7.2 k-近邻法 * 压缩近邻法 从图1至6可以看出来,其实处于同一类样本密集区的测试样本并不一定要全部保留,几乎绝大部分都可去掉,只要保留若干个训练样本即可。问题是保留哪些好。压缩近邻法采用了用测试集测试的办法,采用只要分类有错,在出错处添加一个训练样本的做法。 7.2 k-近邻法 * * * * * * 红点表示A类训练样本,蓝点表示B类训练样本,而绿点O表示待测样本。假设以欧氏距离来衡量,O的最近邻是A3,其次是B1,因此O应该属于A类,但若A3被拿开,O就会被判为B类。这说明计算最近邻法的错误率会有偶然性,也就是指与具体的训练样本集有关。同时还可看到,计算错误率的偶然性会因训练样本数量的增大而减小。因此人们就利用训练样本数量增至极大,来对其性能进行评价。这要使用渐近概念,以下都是在渐近概念下来分析错误率的。 * * * 近邻法举例 Figure shows the decision boundary of the (K = 8)-nearest neighbor classifier. 7.2 k-近邻法 * 快速搜索近邻法 这种方法只解决减少计算量,但没有达到减少存储量的要求。 其基本思想是将样本集按邻近关系分解成组,给出每组的质心所在,以及组内样本至该质心的最大距离。这些组又可形成层次结构,即组又分子组,因而待识别样本可将搜索近邻的范围从某一大组,逐渐深入到其中的子组,直至树的叶结点所代表的组,确定其相邻关系。 7.2 k-近邻法 * 一、样本集分级分解 根据以上基本

文档评论(0)

ranfand + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档