机器学习算法总结_K近邻介绍.doc

第一章 k近邻 K近邻简介 k近邻(k-Nearest Neighbor,k-NN)是一种基本的、有监督学习的分类方法,于1968年由Cover和Hart提出,其用于判断某个对象的类别。k近邻的输入为对象特征向量,对应于特征空间上的点;输出为对象的类别。 k近邻算法实例引入: 图1.1 k近邻实例 如上图所示,有两类不同的样本数据,分别用蓝色的小正方形和红色的小三角形表示,而图正中间的那个绿色的圆所示的数据则是待分类的数据。也就是说,现在,我们不知道中间那个绿色的数据是从属于哪一类(蓝色小正方形or红色小三角形),下面,我们就要解决这个问题:给这个绿色的圆分类。 所谓物以类聚,人以群分,判别一个人是一个什么样品质特征的人,常常可以从他/她身边的朋友入手。要判别上图中那个绿色的圆是属于哪一类数据,只需根据它周围的邻居即可。但一次性看多少个邻居呢?从上图中,你还能看到: 如果k=3,绿色圆点的最近的3个邻居(欧式距离)是2个红色小三角形和1个蓝色小正方形,少数从属于多数,基于统计的方法,判定绿色的这个待分类点属于红色的三角形一类。 如果K=5,绿色圆点的最近的5个邻居是2个红色三角形和3个蓝色的正方形,还是少数从属于多数,基于统计的方法,判定绿色的这个待分类点属

文档评论(0)

1亿VIP精品文档

相关文档