基于K近邻的分类算法研究-WORD.docxVIP

下载本文档

46
0
约 12页
2017-01-26 发布于重庆
举报
版权申诉

基于K近邻的分类算法研究-WORD.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于K近邻的分类算法研究-WORD

K近邻算法算法介绍：K最近邻(k-Nearest?/sowiki/neighbor?prd=content_doc_searchneighbor，/sowiki/KNN?prd=content_doc_searchKNN)分类算法，是一个理论上比较成熟的方法，也是最简单的机器学习算法之一。该方法的思路是：如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。KNN算法中，所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。 KNN方法虽然从原理上也依赖于极限定理，但在类别决策时，只与极少量的相邻样本有关。由于KNN方法主要靠周围有限的邻近的样本，而不是靠判别类域的方法来确定所属类别的，因此对于类域的交叉或重叠较多的待分样本集来说，KNN方法较其他方法更为适合。KNN算法不仅可以用于分类，还可以用于回归。通过找出一个样本的k个最近邻居，将这些邻居的属性的平均值赋给该样本，就可以得到该样本的属性。更有用的方法是将不同距离的邻居对该样本产生的影响给予不同的权值(weight)，如权值与距离成正比。该算法在分类时有个主要的不足是，当样本不平衡时，如一个类的样本容量很大，而其他类样本容量很小时，有可能导致当输入一个新样本时，该样本的K个邻居中大容量类的样本占多数。该算法只计算“最近的”邻居样本，某一类的样本数量很大，那么或者这类样本并不接近目标样本，或者这类样本很靠近目标样本。无论怎样，数量并不能影响运行结果。可以采用权值的方法（和该样本距离小的邻/sowiki/?±?????prd=content_doc_search居权值大）来改进。?　该方法的另一个不足之处是计算量较大，因为对每一个待分类的文本都要计算它到全体已知样本的距离，才能求得它的K个最近邻点。目前常用的解决方法是事先对已知样本点进行剪辑，事先去除对分类作用不大的样本。该算法比较适用于样本容量比较大的类域的自动分类，而那些样本容量较小的类域采用这种算法比较容易产生误分。近邻方法是在一组历史数据记录中寻找一个或者若干个与当前记录最相似的历史纪录的已知特征值来预测当前记录的未知或遗失特征值。近邻方法是数据挖掘分类算法中比较常用的一种方法。K 近邻算法（简称 KNN）是基于统计的分类方法。KNN 分类算法根据待识样本在特征空间中 K 个最近邻样本中的多数样本的类别来进行分类，因此具有直观、无需先验统计知识、无师学习等特点，从而成为非参数分类的一种重要方法。大多数分类方法是基于向量空间模型的。当前在分类方法中，对任意两个向量：x =（x1, x 2,…,xn）与x’=(x1’,x2 ’,…xn’)存在 3 种最通用的距离度量：欧氏距离、余弦和内积。有两种常用的分类策略：一种是计算待分类向量到所有训练集中的向量间的距离：如 K 近邻选择 K 个距离最小的向量然后进行综合，以决定其类别。另一种是用训练集中的向量构成类别向量，仅计算待分类向量到所有3 类别向量的距离，选择一个距离最小的类别向量决定类别的归属。很明显，距离计算在分类中起关键作用。由于以上 3 种距离度量不涉及向量的特征之间的关系，这使得距离的计算不精确，从而影响分类的效果。下面分 3 种情况说明： ①无用特征的影响：在分类算法的向量空间模型中，向量常常是多维的。所谓无用特征是指与类别无关的特征。也就是各个类别中均可以出现的特征，它不代表类别的特点,必须要进行删除，否则他们将会导致距离的计算不准确，即向量间的距离远近将被无关特征的出现所影响。 ②特征间关系的影响：我们认为如果不考虑特征间的关系，距离的计算同样会存在问题。例如在文本分类中，可分两种情况说明：一种是同义词的影响，另一种是具有某种语义关联词的影响。 ③特征间地位不平等性的影响：特征对类别支持作用大小尽管可用权值大小来体现，但我们觉得还不够。存在一些特征对类别具有较强的支持作用（决策特征），它们的存在可以在很大程度上决定类别的归属。而在向量空间模型中，这种决策作用将被众多非决策特征的影响所淹没掉。其次对于K近邻算法中，选取不同的K值对分类结果有较大的影响，也就是说，不同的K值直接决定分类结果的正确率。如图 1.1 所示：图 1.1 K 值对分类的影响其中具有空心方格和实心圆圈两类数据，待测数据点（问号代表）如果采用 1近邻则其所属类别应该是如图所示的属于方格类，如果采用 3 近邻则属于圆圈类。所以说，采用怎样的 K 近邻个数是分类结果正确与否的关键条件之一。最后查找近邻的效率问题也是值得研究的一项内容。K 近邻分类算法需要进行全局搜索，计算的时间复杂度大，速度慢。当训练集数据量非常大时，寻找近邻就需要相应的提高效率算法，使得