KNN讲解.pptVIP

下载本文档

494
0
约3.19千字
约 34页
2017-10-24 发布于湖北
举报
版权申诉

KNN讲解.ppt

1、本文档共34页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

KNN讲解

* * 不足 (1)分类速度慢； KNN算法的时间复杂度和存储空间会随着训练集规模和特征维数的增大而快速增加。因为每次新的待分样本都必须与所有训练集一同计算比较相似度，以便取出靠前的K个已分类样本。整个算法的时间复杂度可以用O(m*n)表示，其中m是选出的特征项(属性)的个数，而n是训练集样本的个数。 * * (2)各属性的权重相同，影响了准确率；当样本不平衡时，如一个类的样本容量很大，而其他类样本容量很小时，有可能导致当输入一个新样本时，该样本的K个邻居中大容量类的样本占多数。该算法只计算“最近的”邻居样本，如果某一类的样本数量很大，那么可能目标样本并不接近这类样本，却会将目标样本分到该类下，影响分类准确率。 * * (3)样本库容量依赖性较强； (4)K值不好确定； k值选择过小，得到的近邻数过少，会降低分类精度，同时也会放大噪声数据的干扰；而k值选择过大，如果待分类样本属于训练集中包含数据较少的类，那么在选择k个近邻的时候，实际上并不相似的数据也被包含进来，造成噪声增加而导致分类效果的降低。 * * * * 5 KNN的一些改进策略 (1)从降低计算复杂度的角度当样本容量较大以及特征属性较多时，KNN算法分类的效率就将大大降低。可以采用以下方法进行改进。如果在使用KNN算法之前对样本的属性进行约简，删除那些对分类结果影响较小（不重要）的属性，则可以用KNN算法快速地得出待分类样本的类别，从而可以得到更好的效果。 * * 粗糙集理论在用于决策表的属性约简时，可在保持决策表中决策能力不变的前提下，删除其中不相关的冗余属性。详细参考：计算机科学2008VOL35NO3《一个高效的KNN分类算法》张著英等 * * 缩小训练样本的方法：在原有的样本中删掉一部分与分类相关不大的样本，将剩下的样本作为新的训练样本或者在原来的训练样本集中选取一些代表样本作为新的训练样本；通过聚类（clustering），将聚类所产生的中心点作为新的训练样本。 * * (2)从优化相似度度量方法的角度基本的KNN算法基于欧几里得距离来计算样本的相似度，这种方法对噪声特征非常敏感。为了改变传统KNN算法中特征作用相同的缺陷，可在度量相似度的距离公式中给特征赋予不同权重，特征的权重一般根据各个特征在分类中的作用设定。 * * (3)从优化判决策略的角度传统的KNN算法的决策规则的缺点是，当样本分布不均匀（训练样本各类别之间数目不均衡，或者即使基本数目接近，由于其所占区域大小的不同）时，只按照前K个邻近顺序而不考虑它们的距离，会造成误判，影响分类的性能。可以采用均匀化样本分布密度的方法进行改进。 * * (4)从选取恰当k值的角度由于KNN算法中几乎所有的计算都发生在分类阶段，而且分类效果很大程度上依赖于k值的选取。而目前为止，比较好的选k值的方法只能是通过反复试验调整。 * * 6 KNN在实际问题中的应用来自于文献《KNN算法在就业预测模型中的应用》 ①特征向量提取本例将从课程平均成绩、实践成绩、英语成绩和毕业设计成绩4个维度（属性）作为探讨学生就业状态的主要影响因素。 * * * * * * ?计算相似度设两个特征向量分别为X=（x1,x2,...,xn）和Y=(y1,y2,...yn) * * 将需要预测的学生的特征向量与训练集中的所有特征向量，用上述公式计算出距离，将各个距离值排序，将最距离小的排在前面，最后取前k个样本，得出在这k个样本中，国企、外企、私企所占比例，比例最大的就是该预测样本所属于的类别。 * * 传统KNN算法实验结果 * * * * * * 改进1、样本特征加权处理传统的方法认为样本各个特征（属性）的作用是相同的，即权重相同，无法体现各特征与分类间的关系。如果有些特征与分类相关度很高，有些很低，则其分类误差就会较大。可以给每一个属性特征赋予相应的权重，代表其重要程度。 * * 本例中针对k值得确定问题，基于样本间距的思想采用一种避开k值得选择。其基本思想为：将训练样本集合分为m类，分别用Ci（i=1,2，...,m）表示。然后求未知样本X与类别Ci中k个样本的距离dj（j=1,2，...,k），最后统计样本X与类别Ci的平均距离，如下式所示： 2、k值的选择 * * 改进的KNN算法实验结果 * * 小结： KNN算法简单，易于实现，但当样本规模很大时，其复杂度会很大，所谓“适合的就是最好的”，在选择分类算法时我们应该根据具体应用的需求，选择适当的分类算法。 “ ” “ ” “ ” * * K最近邻(K-NEARES