06第六章近邻法知识学习资料文件.pptVIP

下载本文档

1
0
约5.77千字
约 55页
2023-10-19 发布于广西
举报
版权申诉

06第六章近邻法知识学习资料文件.ppt

1、本文档共55页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第六章近邻法 k-nearest neighbor 李小霞西南科技大学信息工程学院目录 6.1 最近邻法 6.2 k-近邻法 6.3 改进的近邻法快速搜索近邻法剪辑近邻法压缩近邻法重点最近邻 K近邻剪辑与压缩近邻的不同 Paper Top-k Nearest Neighbor Search In Uncertain Data Series Nearest Neighbor Searching Under Uncertainty Coarse to fine K nearest neighbor classifier A randomized approximate nearest neighbors algorithm 基于 K- 近邻搜索的点云初始配准 1 最近邻法 Cover, Hart, 1968年提出，非参数法中最重要的方法之一；基本思想：分段线性判别的极端情况，计算测试样本与 “代表点”，即所有训练样本的距离，并以最近邻者的类别作为决策；自动分类的两大基本方法：确定判别函数或确定分界面方程，模板匹配；缺点：计算量大优点：错误率小最近邻决策规则对一个 c 类别问题，每类有 Ni 个样本，i＝1，…， c ，则第 i 类的判别函数： xik 表示是ωi 类的第 k 个样本。决策规则：最近邻法在原理上最直观，方法上也十分简单，只要将未知样本x与所有已知类别样本（共N＝∑Ni）进行 N 次距离运算，然后以最小距离者的类别作决策。 ‖·‖表示距离，相似性的度量。最近邻法的错误率分析错误率是比较难算的，因为训练样本集的数量总是有限的，有偶然性，有时多一个、少一个训练样本对测试样本分类的结果影响很大。随训练样本数量的增大而减小，渐近概念。 x 表示一待测试样本，而 x’ 是所用训练样本集中x 的最邻近者，则错误是由 x 与 x’ 分属不同的类别所引起的。由于x’与所用训练样本集有关，因此错误率有较大偶然性。 N→∞时， x’ 将趋向于x。如果样本 x 的两类别后验概率分别为P(ω1| x)与P(ω2| x)，那么对 x 值，在N→∞条件下，发生错误决策的概率为： (6-12) 而在这条件下的渐近平均错误率基于最小错误率贝叶斯决策的错误率当N→∞时，P的下界是贝叶斯错误率，这发生在样本对某类别后验概率为1的情况或各类后验概率相等的情况；在其它条件下，最近邻法的错误率要高于贝叶斯错误率。图6.1表示了这种关系。由于一般情况下P*很小，因此(6-3)又可粗略表示成　　因此可以说最近邻法的渐近平均错误率在贝叶斯错误率的两倍之内。从这点说最近邻法是优良的，因此它是模式识别重要方法之一。 6.2 k-近邻法最近邻法可以扩展成找测试样本的k个最近样本，其中各类别所占个数表示成 ki, i＝1，…，c，决策规则： k近邻一般采用k为奇数，跟投票表决一样，避免因两种票数相等而难以决策。对于两类别问题，最近邻法渐近平均错误率：推广到k-邻域的情况，则错误出现在k个邻域样本中，正确的类别所占样本未过半数，得到 k邻域出错是指某类样本的k近邻中同类训练样本占少数，仅占一个两个，至多(k-1)/2个，因此这些情况都要考虑，计算就相当复杂了； (6-30)相当于(6-32)中k＝1的情况，而在(6-32)中当k增大时是单调递减的。因此可以得出结论，在N→∞的条件下，k-近邻法的错误率要低于最近邻法，图6.2显示了不同k值时的错误率情况； 6.3 改进的近邻法减少近邻法计算量与存储量，同时又不明显降低其性能，两种原理：分类：对样本集进行组织与整理，分群分层，尽可能将计算限制到在接近测试样本邻域的小范围内，避免盲目地与训练样本集中每个样本进行距离计算。压缩：在原有样本集中挑选出对分类计算有效的样本，使样本总数合理地减少。减少计算量，但没有减少存储量基本思想：将样本集按邻近关系分组，给出每组的质心所在，以及组内样本至该质心的最大距离。这些组又可形成层次结构，即组又分子组，因而待识别样本可将搜索近邻的范围从某一大组，逐渐深入到其中的子组，直至树的叶结点所代表的组，确定其相邻关系。步骤样本集分级分解将整个样本分成l个子集，每个子集又分为它的l个子集，如此若干次建立一个样本集的树形结构。聚类，树形结构，每个结点 p 表示一样本子集 ?p——该结点对应的样本子集代号； Np——p中包含的样本个数； Mp——样本子集p的样本均值； rp——Mp到其所属成员的最大距离。图6.3是一个树形结构样本集，其中分支数l＝3 C-均值聚类算法快速搜索算法快速判断某个样本子集是否是该待识样

您可能关注的文档

文档评论（0）

工地殿小二 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

06第六章近邻法知识学习资料文件.pptVIP