KNN算法要点.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
KNN算法要点

更多模板、视频教程: * 更多模板、视频教程: * 更多模板、视频教程: * 更多模板、视频教程: * 更多模板、视频教程: * 更多模板、视频教程: * 更多模板、视频教程: * 更多模板、视频教程: * 更多模板、视频教程: * 更多模板、视频教程: * 更多模板、视频教程: * 更多模板、视频教程: * 更多模板、视频教程: * 更多模板、视频教程: * 更多模板、视频教程: * 更多模板、视频教程: * 更多模板、视频教程: * 更多模板、视频教程: * 更多模板、视频教程: * 更多模板、视频教程: * 更多模板、视频教程: * 更多模板、视频教程: * 更多模板、视频教程: * 更多模板、视频教程: * KNN算法的改进:压缩近邻算法 利用现在的样本集,采取一定的算法产生一个新的样本集,该样本集拥有比原样本集少的多的样本数量,但仍然保持有对未知样本进行分类的能力。 基本思路:定义两个存储器,一个用来存放生成的样本集,称为output样本集;另一个用来存放原来的样本集,称为original样本集。 1.初始化:output样本集为空集,原样本集存入original样本集,从original样本集中任意选择一个样本移动到output样本集中; 2.在original样本集中选择第i个样本,并使用output样本集中的样本对其进行最近邻算法分类,若分类错误,则将该样本移动到output样本集中,若分类正确,不做任何处理; 3.重复2步骤,直至遍历完original样本集中的所有样本,output样本集即为压缩后的样本集。 通过这种方式也能减少算法的计算量。 KNN算法几大问题 1、k值设定为多大? k太小,分类结果易受噪声点影响;k太大,近邻中又可能包含太多的其它类别的点。k值通常是采用交叉检验来确定。 经验规则:k一般低于训练样本数的平方根 KNN算法几大问题 2、类别如何判定最合适? 投票法没有考虑近邻的距离的远近,距离更近的近邻也许更应该决定最终的分类,所以加权投票法更恰当一些。 3、如何选择合适的距离衡量? 高维度对距离衡量的影响:众所周知当变量数越多,欧式距离的区分能力就越差。变量值域对距离的影响:值域越大的变量常常会在距离计算中占据主导作用,因此应先对变量进行标准化。 4、训练样本是否要一视同仁? 在训练集中,有些样本可能是更值得依赖的。可以给不同的样本施加不同的权重,加强依赖样本的权重,降低不可信赖样本的影响。 分类学习算法的种类 积极学习法 (决策树归纳):先根据训练集构造出分类模型,根据分类模型对测试集分类。 5、性能问题? kNN是一种懒惰算法,平时不好好学习,考试(对测试样本分类)时才临阵磨枪(临时去找k个近邻)。 消极学习法 (基于实例的学习法):推迟建模, 当给定训练元组时,简单地存储训练数据 (或稍加处理) ,一直等到给定一个测试元组。消极学习法在提供训练元组时只做少量工作,而在分类或预测时做更多的工作。 懒惰的后果:构造模型很简单,但在对测试样本分类地的系统开销大,因为要扫描全部训练样本并计算距离。 Multi-Label Learning (MLL) Multi-label objects are ubiquitous ! KNN算法的扩展:ML-KNN(Multi-label KNN) Min-Ling Zhang, Zhi-Hua Zhou. ML-KNN: A lazy learning approach to Multi-label learning. Pattern Recognition, 40(2007):2038-2048. KNN算法的扩展:ML-KNN(Multi-label KNN) 未知样本dt的3个最近邻是d4,d5,d6.则 nt=0,1,0+0,1,1+1,1,0=1,3,1.运用maximum a posteriori (MAP) 那么对于此例子, 对类1:P(H1=1|E=1 )? P(H1=0|E=1 ) 对类2:P(H2=1|E=3 )?P(H2=0|E=3 ) 对类3:P(H3=1| E=1 )?P(H3=0|E=1 ) KNN算法的扩展:ML-KNN(Multi-label KNN) 由贝叶斯公式: 第一步:先求出先验概率: KNN算法的扩展:ML-KNN(Multi-label KNN) 设平滑参数s=1.则P(H1=1)=(1+4)/(2*1+6)=0.625. 第二步:求条件概率 和 将训练集中的每一个样本看成是一个测试样本,找其最近邻。 KNN算法的扩展:ML-KNN(Multi-label KNN) 然后计算概率: 设平滑参数s=

文档评论(0)

little28 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档