浅谈KNN算法.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
浅谈KNN算法,knn算法,knn分类算法,knn算法原理,knn算法java,knn算法matlab,knn算法实现,knn算法流程图,knn算法实例,knn算法matlab实现

近邻大小问题 k-近邻算法的预测结果与k的大小相关。同样的数据,K值不同可能导致不同的预测结果。 计算效率问题 k-近邻算法推迟所有的计算处理,直到接收到一个新的查询,所以处理每个新查询可能需要大量的计算。 归纳偏置问题 k-近邻算法的归纳偏置是:一个实例的分类xq与在欧氏空间中它附近的实例的分类相似。 问题 实现 K 近邻算法时,主要考虑的问题是如何对训练数据进行快速 ?K 近邻搜索,这在特征空间维数大及训练数据容量大时非常必要。 K近邻算法应用 文本分类 图像处理 Thank you for your attention! “ ” “ ” 浅谈K-NN算法 主讲:苏敏 小组成员:骆健、刘兵、张文平、李鸣、苏敏 基本概念 全称:k-Nearest Neighbor 简称:K-NN 中文:K-近邻算法 什么是K-近邻算法 何谓K近邻算法,即K-Nearest Neighbor algorithm,简称KNN算法,单从名字来猜想,可以简单粗暴的认为是:K个最近的邻居,当K=1时,算法便成了最近邻算法,即寻找最近的那个邻 居。为何要找邻居?打个比方来说,假设你来到一个陌生的村庄,现在你要找到与你有着相似特征的人群融入他们,所谓入伙。 用官方的话来说,所谓K近邻算法,即是给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的K个实例(也就是上面所说的K个邻居), 这K个实例的多数属于某个类,就把该输入实例分类到这个类中。根据这个说法,咱们来看下引自维基百科上的一幅图: 算法举例 如上图所示,有两类不同的样本数据,分别用蓝色的小正方形和红色的小三角形表示,而图正中间的那个绿色的圆所标示的数据则是待分类的数据。 问题:给这个绿色的圆分类? 如果K=3,绿色圆点的最近的3个邻居是2个红色小三角形和1个蓝色小正方形,少数从属于多数,基于统计的方法,判定绿色的这个待分类点属于红色的三角形一类。 如果K=5,绿色圆点的最近的5个邻居是2个红色三角形和3个蓝色的正方形,还是少数从属于多数,基于统计的方法,判定绿色的这个待分类点属于蓝色的正方形一类。 基本思想 产生训练集,使得训练集按照已有的分类标准划分成离散型数值类,或者是连续型数值类输出。 以训练集的分类为基础,对测试集每个样本寻找K个近邻,采用欧式距离作为样本间的相似程度的判断依据,相似度大的即为最近邻。一般近邻可以选择1个或者多个。 当类为连续型数值时,测试样本的最终输出为近邻的平均值;当类为离散型数值时,测试样本的最终为近邻类中个数最多的那一类。 K-近邻算法特点 KNN 算法本身简单有效,它是一种 lazy-learning 算法,分类器不需要使用训练集进行训练,训练时间复杂度为0。KNN 分类的计算复杂度和训练集中的文档数目成正比,也就是说,如果训练集中文档总数为 n,那么 KNN 的分类时间复杂度为O(n)。 K-近邻三个基本要素 K 值的选择 距离度量 根据欧氏距离定义实例间的距离。两个实例xi和xj的距离d(xi,xj)定义为 分类决策规则 往往是多数表决,即由输入实例的 K 个最临近的训练实例中的多数类决定输入实例的类别 内容补充:K值的选择 内容补充:距离度量之欧式距离 K近邻算法的优点 K-近邻算法不是在整个实例空间上一次性地预测目标函数值,而是针对每个待预测的新实例,建立不同的目标函数逼近,作出局部的和相异的预测 。这样做的好处是:有时目标函数很复杂,但具有不太复杂的局部逼近。 距离加权的k-近邻算法对训练数据中的噪声有很好的健壮性,通过取k个近邻的加权平均,可以消除孤立的噪声样例的影响。 K近邻算法的缺点 当样本不平衡时,如一个类的样本容量很大,而其他类样本容量很小时,有可能导致当输入一个新样本时,该样本的K个邻居中大容量类的样本占多数。该算法只计算“最近的”邻居样本,某一类的样本数量很大,那么或者这类样本并不接近目标样本,或者这类样本很靠近目标样本。 计算量较大,因为对每一个待分类的文本都要计算它到全体已知样本的距离,才能求得它的K个最近邻点。 针对K近邻缺点的改进方案 针对第一个缺点,可以采用权值的方法(和该样本距离小的邻居权值大)来改进。 目前常用的解决方法是事先对已知样本点进行剪辑,事先去除对分类作用不大的样本。该算法比较适用于样本容量比较大的类域的自动分类,而那些样本容量较小的类域采用这种算法比较容易产生误分。 K近邻算法带来的问题 应用K-近邻算法来进行预测的时候,经常会遇到很多现实问题。 这些问题包括:维度灾害问题、近邻索引问题、近邻大小问题、 计算效率问题、归纳偏置问题。 维度灾害问题 k-近邻算法的一个实践问题:维度灾害 许多学习方法,比如决策树方法,选择部分属性作出判断,而k-近邻方法中实例间的距离是根据实例的所

文档评论(0)

xingkongwd + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档