06第六章 近邻法 知识学习资料文件.pptVIP

  1. 1、本文档共55页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第六章 近邻法 k-nearest neighbor 李小霞 西南科技大学信息工程学院 目 录 6.1 最近邻法 6.2 k-近邻法 6.3 改进的近邻法 快速搜索近邻法 剪辑近邻法 压缩近邻法 重 点 最近邻 K近邻 剪辑与压缩近邻的不同 Paper Top-k Nearest Neighbor Search In Uncertain Data Series Nearest Neighbor Searching Under Uncertainty Coarse to fine K nearest neighbor classifier A randomized approximate nearest neighbors algorithm 基于 K- 近邻搜索的点云初始配准 1 最近邻法 Cover, Hart, 1968年提出,非参数法中最重要的方法之一; 基本思想:分段线性判别的极端情况,计算测试样本与 “代表点”,即所有训练样本的距离,并以最近邻者的类别作为决策; 自动分类的两大基本方法:确定判别函数或确定分界面方程,模板匹配; 缺点:计算量大 优点:错误率小 最近邻决策规则 对一个 c 类别问题,每类有 Ni 个样本,i=1,…, c ,则第 i 类的判别函数: xik 表示是ωi 类的第 k 个样本。决策规则: 最近邻法在原理上最直观,方法上也十分简单,只要将未知样本x与所有已知类别样本(共N=∑Ni)进行 N 次距离运算,然后以最小距离者的类别作决策。 ‖·‖表示距离,相似性的度量。 最近邻法的错误率分析 错误率是比较难算的,因为训练样本集的数量总是有限的,有偶然性,有时多一个、少一个训练样本对测试样本分类的结果影响很大。 随训练样本数量的增大而减小,渐近概念。 x 表示一待测试样本,而 x’ 是所用训练样本集中x 的最邻近者,则错误是由 x 与 x’ 分属不同的类别所引起的。由于x’与所用训练样本集有关,因此错误率有较大偶然性。 N→∞时, x’ 将趋向于x。 如果样本 x 的两类别后验概率分别为P(ω1| x)与P(ω2| x),那么对 x 值,在N→∞条件下,发生错误决策的概率为: (6-12) 而在这条件下的渐近平均错误率 基于最小错误率贝叶斯决策的错误率 当N→∞时,P的下界是贝叶斯错误率,这发生在样本对某类别后验概率为1的情况或各类后验概率相等的情况; 在其它条件下,最近邻法的错误率要高于贝叶斯错误率。 图6.1表示了这种关系。由于一般情况下P*很小,因此(6-3)又可粗略表示成    因此可以说最近邻法的渐近平均错误率在贝叶斯错误率的两倍之内。从这点说最近邻法是优良的,因此它是模式识别重要方法之一。 6.2 k-近邻法 最近邻法可以扩展成找测试样本的k个最近样本,其中各类别所占个数表示成 ki, i=1,…,c,决策规则: k近邻一般采用k为奇数,跟投票表决一样,避免因两种票数相等而难以决策。 对于两类别问题,最近邻法渐近平均错误率: 推广到k-邻域的情况,则错误出现在k个邻域样本中,正确的类别所占样本未过半数,得到 k邻域出错是指某类样本的k近邻中同类训练样本占少数,仅占一个两个,至多(k-1)/2个,因此这些情况都要考虑,计算就相当复杂了; (6-30)相当于(6-32)中k=1的情况,而在(6-32)中当k增大时 是单调递减的。因此可以得出结论,在N→∞的条件下,k-近邻法的错误率要低于最近邻法,图6.2显示了不同k值时的错误率情况; 6.3 改进的近邻法 减少近邻法计算量与存储量,同时又不明显降低其性能,两种原理: 分类:对样本集进行组织与整理,分群分层,尽可能将计算限制到在接近测试样本邻域的小范围内,避免盲目地与训练样本集中每个样本进行距离计算。 压缩:在原有样本集中挑选出对分类计算有效的样本,使样本总数合理地减少。 减少计算量,但没有减少存储量 基本思想:将样本集按邻近关系分组,给出每组的质心所在,以及组内样本至该质心的最大距离。这些组又可形成层次结构,即组又分子组,因而待识别样本可将搜索近邻的范围从某一大组,逐渐深入到其中的子组,直至树的叶结点所代表的组,确定其相邻关系。 步骤 样本集分级分解 将整个样本分成l个子集,每个子集又分为它的l个子集,如此若干次建立一个样本集的树形结构。聚类,树形结构,每个结点 p 表示一样本子集 ?p——该结点对应的样本子集代号; Np——p中包含的样本个数; Mp——样本子集p的样本均值; rp——Mp到其所属成员的最大距离。 图6.3是一个树形结构样本集,其中分支数l=3 C-均值聚类算法 快速搜索算法 快速判断某个样本子集是否是该待识样

您可能关注的文档

文档评论(0)

工地殿小二 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档