网站大量收购独家精品文档,联系QQ:2885784924

参考文稿k近邻算法.pptx

  1. 1、本文档共13页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
K近邻算法 KNN(K-nearest neighbors) 讲解人:曾龙海 什么是K近邻算法 民间说法:K个最近的邻居,当K=1时,算法便成了最近邻算法,即寻找最近的那个邻居。为何要找邻居?打个比方来说,假设你来到一个陌生的村庄,现在你要找到与你有着相似特征的人群融入他们。 官方说法:所谓K近邻算法,即是给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的K个实例(也就是上面所说的K个邻居), 这K个实例的多数属于某个类,就把该输入实例分类到这个类中。 K=3绿色的这个待分类点属于红色的三角形一类。 K=5绿色的这个待分类点属于蓝色的正方形一类。 K值如何选择? K=1最近邻算法 K=N不可取 K选取较小值 就相当于用较小的领域中的训练实例进行预测,“学习”近似误差会减小,只有与输入实例较近或相似的训练实例才会对预测结果起作用,与此同时带来的问题是“学习”的估计误差会增大,换句话说,K值的减小就意味着整体模型变得复杂。 K选取较大值 就相当于用较大领域中的训练实例进行预测,其优点是可以减少学习的估计误差,但缺点是学习的近似误差会增大。这时候,与输入实例较远(不相似的)训练实例也会对预测器作用,使预测发生错误,且K值的增大就意味着整体的模型变得简单。 在实际应用中,K值一般取一个比较小的数值,例如采用交叉验证法 (简单来说,就是一部分样本做训练集,一部分做测试集)来选择最优的K值 K近邻算法实现-KD树 什么是KD树? k-d树(k-dimension tree)是一种空间划分树,说白了就是把整个空间划分为特定的几个部分,然后在特定空间的部分内进行相关搜索操作。 二维 三维 K近邻算法实现-KD树 KD树数据结构 KD树构建伪代码 流程图 K近邻算法实现-KD树 KD树构造 假设有6个二维数据点{(2,3),(5,4),(9,6),(4,7),(8,1),(7,2)} 1)确定:split域=x 求解方法:计算各维度方差,取最大方差维度,这里各维度方差值为(39, 28.63) 2)确定:Node-data = (7,2) 求解方法:将选取好的split域进行排序(2,4,5,7,8,9),选取中间值7,超平面切割点线为x=7 3)确定:左子空间和右子空间 求解方法:将选取好的平面切割线x=7将空间分为两部分,x=7的为左子空间={(2,3),(5,4),(4,7)} x7的为右子空间={(9,6),(8,1)} K近邻算法实现-KD树 KD树构造的树状图 KD树划分的二维平面图 K近邻算法实现-KD树 KD树近邻搜索 查询点(2.1,3.1) 半径r=0.1414画圆 回溯(5,4)(7,2) K近邻算法实现-KD树 KD树近邻搜索 查询点(2,4.5) 近邻(4,7)半径r=3.202画圆 回溯(5,4) 与y=4有交割,进入(5,4)左子树搜索 发现近邻(2,3)获得半径r=1.5画圆 回溯(7,2) K近邻算法应用 文本分类 该算法的基本思路是:在给定新文本后,考虑在训练文本集中与该新文本距离最近(最相似)的K 篇文本,根据这K 篇文本所属的类别判定新文本所属的类别。 STEP 1:根据特征项集合重新描述训练文本向量 STEP 2:根据特征词分析新文本,确定新文本的向量表 STEP 3:在训练文本集中选出与新文本最相似的K 个文本 (K 值的确定目前没有很好的方法,一般采用先定一个初始值,然后根据实验测) STEP 4:在新文本的K个邻居中依次计算每类权重 STEP 5:比较类的权重将文本分到权重最大的类别中 电影类别分类 建立二维模型(打斗,接吻,类别) 计算K个距离最近的电影 K近邻算法扩展学习 近邻的距离度量 欧式距离 曼哈顿距离 切比雪夫距离 闵可夫斯基距离(Minkowski Distance) 标准化欧氏距离 (Standardized Euclidean distance ) 马氏距离(Mahalanobis Distance) 巴氏距离(Bhattacharyya Distance) 汉明距离(Hamming distance) 夹角余弦(Cosine) 杰卡德相似系数(Jaccard similarity coefficient) 皮尔逊系数(Pearson Correlation Coefficient) R树、球树、M树、VP树、MVP树 KD树的应用:SIFT+KD_BBF搜索算法 参考文献 维基百科,/wiki/K-nearest_neighbor_algorithm 机器学习中的相似性度量,/heaad/archive/2011/03/08/1977733.html 数据挖掘:实用机器学习技术,[新西兰]Ian H.Witten 著,第4章4.7节 电子科

文档评论(0)

wx5620 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档