KNN讲解.pptVIP

  • 497
  • 0
  • 约3.19千字
  • 约 34页
  • 2017-10-24 发布于湖北
  • 举报
KNN讲解

* * 不足 (1)分类速度慢; KNN算法的时间复杂度和存储空间会随着训练集规模和特征维数的增大而快速增加。因为每次新的待分样本都必须与所有训练集一同计算比较相似度,以便取出靠前的K个已分类样本。整个算法的时间复杂度可以用O(m*n)表示,其中m是选出的特征项(属性)的个数,而n是训练集样本的个数。 * * (2)各属性的权重相同,影响了准确率; 当样本不平衡时,如一个类的样本容量很大,而其他类样本容量很小时,有可能导致当输入一个新样本时,该样本的K个邻居中大容量类的样本占多数。该算法只计算“最近的”邻居样本,如果某一类的样本数量很大,那么可能目标样本并不接近这类样本,却会将目标样本分到该类下,影响分类准确率。 * * (3)样本库容量依赖性较强; (4)K值不好确定; k值选择过小,得到的近邻数过少,会降低分类精度,同时也会放大噪声数据的干扰;而k值选择过大,如果待分类样本属于训练集中包含数据较少的类,那么在选择k个近邻的时候,实际上并不相似的数据也被包含进来,造成噪声增加而导致分类效果的降低。 * * * * 5 KNN的一些改进策略 (1)从降低计算复杂度的角度 当样本容量较大以及特征属性较多时,KNN算法分类的效率就将大大降低。可以采用以下方法进行改进。 如果在使用KNN算法之前对样本的属性进行约简,删除那些对分类结果影响较小

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档