浅谈KNN算法.pptVIP

下载本文档

1079
0
约2.27千字
约 21页
2015-09-11 发布于重庆
举报
版权申诉

浅谈KNN算法.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

浅谈KNN算法,knn算法,knn分类算法,knn算法原理,knn算法java,knn算法matlab,knn算法实现,knn算法流程图,knn算法实例,knn算法matlab实现

近邻大小问题 k-近邻算法的预测结果与k的大小相关。同样的数据，K值不同可能导致不同的预测结果。计算效率问题 k-近邻算法推迟所有的计算处理，直到接收到一个新的查询，所以处理每个新查询可能需要大量的计算。归纳偏置问题 k-近邻算法的归纳偏置是：一个实例的分类xq与在欧氏空间中它附近的实例的分类相似。问题实现 K 近邻算法时，主要考虑的问题是如何对训练数据进行快速 ?K 近邻搜索，这在特征空间维数大及训练数据容量大时非常必要。 K近邻算法应用文本分类图像处理 Thank you for your attention! “ ” “ ” 浅谈K-NN算法主讲：苏敏小组成员：骆健、刘兵、张文平、李鸣、苏敏基本概念全称：k-Nearest Neighbor 简称：K-NN 中文：K-近邻算法什么是K-近邻算法何谓K近邻算法，即K-Nearest Neighbor algorithm，简称KNN算法，单从名字来猜想，可以简单粗暴的认为是：K个最近的邻居，当K=1时，算法便成了最近邻算法，即寻找最近的那个邻居。为何要找邻居？打个比方来说，假设你来到一个陌生的村庄，现在你要找到与你有着相似特征的人群融入他们，所谓入伙。用官方的话来说，所谓K近邻算法，即是给定一个训练数据集，对新的输入实例，在训练数据集中找到与该实例最邻近的K个实例（也就是上面所说的K个邻居），这K个实例的多数属于某个类，就把该输入实例分类到这个类中。根据这个说法，咱们来看下引自维基百科上的一幅图：算法举例如上图所示，有两类不同的样本数据，分别用蓝色的小正方形和红色的小三角形表示，而图正中间的那个绿色的圆所标示的数据则是待分类的数据。问题：给这个绿色的圆分类？如果K=3，绿色圆点的最近的3个邻居是2个红色小三角形和1个蓝色小正方形，少数从属于多数，基于统计的方法，判定绿色的这个待分类点属于红色的三角形一类。如果K=5，绿色圆点的最近的5个邻居是2个红色三角形和3个蓝色的正方形，还是少数从属于多数，基于统计的方法，判定绿色的这个待分类点属于蓝色的正方形一类。基本思想产生训练集，使得训练集按照已有的分类标准划分成离散型数值类，或者是连续型数值类输出。以训练集的分类为基础，对测试集每个样本寻找K个近邻，采用欧式距离作为样本间的相似程度的判断依据，相似度大的即为最近邻。一般近邻可以选择1个或者多个。当类为连续型数值时，测试样本的最终输出为近邻的平均值；当类为离散型数值时，测试样本的最终为近邻类中个数最多的那一类。 K-近邻算法特点 KNN 算法本身简单有效，它是一种 lazy-learning 算法，分类器不需要使用训练集进行训练，训练时间复杂度为0。KNN 分类的计算复杂度和训练集中的文档数目成正比，也就是说，如果训练集中文档总数为 n，那么 KNN 的分类时间复杂度为O(n)。 K-近邻三个基本要素 K 值的选择距离度量根据欧氏距离定义实例间的距离。两个实例xi和xj的距离d(xi,xj)定义为分类决策规则往往是多数表决，即由输入实例的 K 个最临近的训练实例中的多数类决定输入实例的类别内容补充：K值的选择内容补充：距离度量之欧式距离 K近邻算法的优点 K-近邻算法不是在整个实例空间上一次性地预测目标函数值，而是针对每个待预测的新实例，建立不同的目标函数逼近，作出局部的和相异的预测。这样做的好处是：有时目标函数很复杂，但具有不太复杂的局部逼近。距离加权的k-近邻算法对训练数据中的噪声有很好的健壮性，通过取k个近邻的加权平均，可以消除孤立的噪声样例的影响。 K近邻算法的缺点当样本不平衡时，如一个类的样本容量很大，而其他类样本容量很小时，有可能导致当输入一个新样本时，该样本的K个邻居中大容量类的样本占多数。该算法只计算“最近的”邻居样本，某一类的样本数量很大，那么或者这类样本并不接近目标样本，或者这类样本很靠近目标样本。计算量较大，因为对每一个待分类的文本都要计算它到全体已知样本的距离，才能求得它的K个最近邻点。针对K近邻缺点的改进方案针对第一个缺点，可以采用权值的方法（和该样本距离小的邻居权值大）来改进。目前常用的解决方法是事先对已知样本点进行剪辑，事先去除对分类作用不大的样本。该算法比较适用于样本容量比较大的类域的自动分类，而那些样本容量较小的类域采用这种算法比较容易产生误分。 K近邻算法带来的问题应用K-近邻算法来进行预测的时候，经常会遇到很多现实问题。这些问题包括：维度灾害问题、近邻索引问题、近邻大小问题、计算效率问题、归纳偏置问题。维度灾害问题 k-近邻算法的一个实践问题：维度灾害许多学习方法，比如决策树方法，选择部分属性作出判断，而k-近邻方法中实例间的距离是根据实例的所