KNN算法要点.pptVIP

下载本文档

39
0
约9.36千字
约 43页
2017-02-05 发布于湖北
举报
版权申诉

KNN算法要点.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

KNN算法要点

更多模板、视频教程： * 更多模板、视频教程： * 更多模板、视频教程： * 更多模板、视频教程： * 更多模板、视频教程： * 更多模板、视频教程： * 更多模板、视频教程： * 更多模板、视频教程： * 更多模板、视频教程： * 更多模板、视频教程： * 更多模板、视频教程： * 更多模板、视频教程： * 更多模板、视频教程： * 更多模板、视频教程： * 更多模板、视频教程： * 更多模板、视频教程： * 更多模板、视频教程： * 更多模板、视频教程： * 更多模板、视频教程： * 更多模板、视频教程： * 更多模板、视频教程： * 更多模板、视频教程： * 更多模板、视频教程： * 更多模板、视频教程： * KNN算法的改进：压缩近邻算法利用现在的样本集，采取一定的算法产生一个新的样本集，该样本集拥有比原样本集少的多的样本数量，但仍然保持有对未知样本进行分类的能力。基本思路：定义两个存储器，一个用来存放生成的样本集，称为output样本集；另一个用来存放原来的样本集，称为original样本集。 1.初始化：output样本集为空集，原样本集存入original样本集，从original样本集中任意选择一个样本移动到output样本集中； 2.在original样本集中选择第i个样本，并使用output样本集中的样本对其进行最近邻算法分类，若分类错误，则将该样本移动到output样本集中，若分类正确，不做任何处理； 3.重复2步骤，直至遍历完original样本集中的所有样本，output样本集即为压缩后的样本集。通过这种方式也能减少算法的计算量。 KNN算法几大问题 1、k值设定为多大？k太小，分类结果易受噪声点影响；k太大，近邻中又可能包含太多的其它类别的点。k值通常是采用交叉检验来确定。经验规则：k一般低于训练样本数的平方根 KNN算法几大问题 2、类别如何判定最合适？投票法没有考虑近邻的距离的远近，距离更近的近邻也许更应该决定最终的分类，所以加权投票法更恰当一些。 3、如何选择合适的距离衡量？高维度对距离衡量的影响：众所周知当变量数越多，欧式距离的区分能力就越差。变量值域对距离的影响：值域越大的变量常常会在距离计算中占据主导作用，因此应先对变量进行标准化。4、训练样本是否要一视同仁？在训练集中，有些样本可能是更值得依赖的。可以给不同的样本施加不同的权重，加强依赖样本的权重，降低不可信赖样本的影响。分类学习算法的种类积极学习法 (决策树归纳)：先根据训练集构造出分类模型，根据分类模型对测试集分类。 5、性能问题？kNN是一种懒惰算法，平时不好好学习，考试（对测试样本分类）时才临阵磨枪（临时去找k个近邻）。消极学习法 (基于实例的学习法):推迟建模，当给定训练元组时，简单地存储训练数据 (或稍加处理) ，一直等到给定一个测试元组。消极学习法在提供训练元组时只做少量工作，而在分类或预测时做更多的工作。懒惰的后果：构造模型很简单，但在对测试样本分类地的系统开销大，因为要扫描全部训练样本并计算距离。 Multi-Label Learning (MLL) Multi-label objects are ubiquitous ! KNN算法的扩展：ML-KNN（Multi-label KNN） Min-Ling Zhang, Zhi-Hua Zhou. ML-KNN: A lazy learning approach to Multi-label learning. Pattern Recognition, 40(2007):2038-2048. KNN算法的扩展：ML-KNN（Multi-label KNN）未知样本dt的3个最近邻是d4，d5，d6.则 nt=0,1,0+0,1,1+1,1,0=1,3,1.运用maximum a posteriori (MAP）那么对于此例子，对类1：P（H1=1|E=1 ）？ P（H1=0|E=1 ）对类2：P（H2=1|E=3 ）？P（H2=0|E=3 ）对类3：P（H3=1| E=1 ）？P（H3=0|E=1 ） KNN算法的扩展：ML-KNN（Multi-label KNN）由贝叶斯公式：第一步：先求出先验概率： KNN算法的扩展：ML-KNN（Multi-label KNN）设平滑参数s=1.则P（H1=1）=（1+4）/（2*1+6）=0.625. 第二步：求条件概率和将训练集中的每一个样本看成是一个测试样本，找其最近邻。 KNN算法的扩展：ML-KNN（Multi-label KNN）然后计算概率：设平滑参数s=