模式识别(第六章NO1)(最近邻法)介绍.pptVIP

下载本文档

12
0
约3.04千字
约 16页
2016-07-27 发布于湖北
举报
版权申诉

模式识别(第六章NO1)(最近邻法)介绍.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第六章近邻法;二. 最近邻法的决策规则　　设有c类模式样本，　ω1, ω2,……, ωc 　　每类有Ni个样本(i=1,2,……,c)，则最近邻法的(ωi类)判别函数为: 　　式中表示ωi类中的第k个样本。 ; 对应的决策规则为：　　　　如果　　　则决策　　即只要将待分样本X与全部N( )个已知类别的样本进行欧氏距离之间的比较，然后将X归到离它最近的类别中。由于这种方法只根据离待分样本X最近的一个样本的类别而决定其类别，所以通常称为1-最近邻法(亦称1-NN方法);三. 最近邻法的错误率问题　　　最近邻法是一种次优方法，它的错误率比最小错误概率的Bayes决策规则下的错误率要大，但是，当样本数目无限时，它的错误率不会超过Bayes错误率的一倍。定性分析：若将X的最近邻Xj的类别看成是一个随机变量，于是　的概率就是后验概率 . 　　　当样本数目很多时，可以认为X的最近邻Xj 离它很近，从而近似的认为 ;　　这时最近邻法可看成是如下的随机化决策：　　　　按照概率来决定X的类别。故最近邻法可看成是用后验概率来对X进行分类的。　　再进一步说，就是如果有下式成立：　　则依Bayes决策，应取作为X的类别。而在最近邻法中，最近邻的类别为的概率为　　　，所以X分到类去的概率为　　　，而不分到　类去的概率为： ;这也就是说：　　按Bayes决策的话：以概率为1，而得决策　　　按最近邻法决策的话：以概率为　　　，而得决策　　显然，当　　　　接近于1时，最近邻法与最小错误率下的Bayes法的结果就几乎相同了。也就是说，当最小错误概率较小时，最近邻法的错误概率也是较小的，这两种方法同样“好”。　　而当各类的　　　　都接近于时(即所有类别是等可能的)，最近邻法与Bayes法的结果就不一样了。这时两者的错误率都接近于; 定量描述：式中：p为最近邻法的渐近平均错误率为 Bayes错误率 c 为类别数一般较小 ;6.2 k-近邻法(k-NN法) 　??为了克服单个样本类别的偶然性以增加分类的可靠性，可将最近邻法则进行改进，一个简单的方法就是k-近邻法。　　此法就是考察待分样本X的k个最近邻样本，这k个最近邻元素中哪一类的样本最多，就将X判属哪一类。或者说，就是在N个已知类别的样本中，找出X的k个近邻，这k个近邻中多数属于的那一类，就是。具体就是：设k1,k2,......,kc分别为X的k个最近邻样本中属于类的样本数，;则定义类的判别函数为：决策规则为：　　如果　　则判　　最近邻法和k-近邻法的共同优点是简单，而且结果是比较好的，但是它们也存在下述问题： ① 需要将全部样本存入机器中，每次决策都要计算X与全部样本间的距离并进行比较。所以要求的存储容量和计算量都很大。 ② 没有考虑到决策的风险，所以如果决策的错误代价很大时，会产生很大的风险。 ③上述分析是建立在样本数的假定上的，这在实际应用中是无法实现的。;6.3 近邻法的改进算法　　共同特点是如何尽快地找出最近邻可能存在的小的空间，减少搜索的范围，从而达到减少近邻法中的计算量和存储量的问题。一. 快速近邻算法　　该算法对最近邻法和k-近邻法都适用。下面以最近邻法为例来讨论。 1. 基本思想　　将全部已知样本按级分成一些不相交的子集，并在子集的基础上进行搜索。也就是说，该算法由两个阶段组成：第一阶段：将样本集按级分解，形成树状结构。第二阶段：用搜索算法找出待识样本的最近邻。;2. 涉及的规则　　设?={X1,X2,……,XN}表示全部样本集；　　　?P表示节点P对应的样本子集，即?P??；　　　NP表示?P中的样本数；　　　MP表示?P中的样本均值(即“类心”)；　　　rP 　　　　　　　　：表示从MP