- 1、本文档共13页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
K近邻算法KNN(K-nearest neighbors)
讲解人:曾龙海
什么是K近邻算法
民间说法:K个最近的邻居,当K=1时,算法便成了最近邻算法,即寻找最近的那个邻居。为何要找邻居?打个比方来说,假设你来到一个陌生的村庄,现在你要找到与你有着相似特征的人群融入他们。
官方说法:所谓K近邻算法,即是给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的K个实例(也就是上面所说的K个邻居), 这K个实例的多数属于某个类,就把该输入实例分类到这个类中。
K=3绿色的这个待分类点属于红色的三角形一类。
K=5绿色的这个待分类点属于蓝色的正方形一类。
K值如何选择?
K=1最近邻算法
K=N不可取
K选取较小值
就相当于用较小的领域中的训练实例进行预测,“学习”近似误差会减小,只有与输入实例较近或相似的训练实例才会对预测结果起作用,与此同时带来的问题是“学习”的估计误差会增大,换句话说,K值的减小就意味着整体模型变得复杂。
K选取较大值
就相当于用较大领域中的训练实例进行预测,其优点是可以减少学习的估计误差,但缺点是学习的近似误差会增大。这时候,与输入实例较远(不相似的)训练实例也会对预测器作用,使预测发生错误,且K值的增大就意味着整体的模型变得简单。
在实际应用中,K值一般取一个比较小的数值,例如采用交叉验证法
(简单来说,就是一部分样本做训练集,一部分做测试集)来选择最优的K值
K近邻算法实现-KD树
什么是KD树?
k-d树(k-dimension tree)是一种空间划分树,说白了就是把整个空间划分为特定的几个部分,然后在特定空间的部分内进行相关搜索操作。
二维
三维
K近邻算法实现-KD树
KD树数据结构
KD树构建伪代码
流程图
K近邻算法实现-KD树
KD树构造
假设有6个二维数据点{(2,3),(5,4),(9,6),(4,7),(8,1),(7,2)}
1)确定:split域=x
求解方法:计算各维度方差,取最大方差维度,这里各维度方差值为(39, 28.63)
2)确定:Node-data = (7,2)
求解方法:将选取好的split域进行排序(2,4,5,7,8,9),选取中间值7,超平面切割点线为x=7
3)确定:左子空间和右子空间
求解方法:将选取好的平面切割线x=7将空间分为两部分,x=7的为左子空间={(2,3),(5,4),(4,7)}
x7的为右子空间={(9,6),(8,1)}
K近邻算法实现-KD树
KD树构造的树状图
KD树划分的二维平面图
K近邻算法实现-KD树
KD树近邻搜索
查询点(2.1,3.1)
半径r=0.1414画圆
回溯(5,4)(7,2)
K近邻算法实现-KD树
KD树近邻搜索
查询点(2,4.5)
近邻(4,7)半径r=3.202画圆
回溯(5,4)
与y=4有交割,进入(5,4)左子树搜索
发现近邻(2,3)获得半径r=1.5画圆
回溯(7,2)
K近邻算法应用
文本分类
该算法的基本思路是:在给定新文本后,考虑在训练文本集中与该新文本距离最近(最相似)的K 篇文本,根据这K 篇文本所属的类别判定新文本所属的类别。
STEP 1:根据特征项集合重新描述训练文本向量
STEP 2:根据特征词分析新文本,确定新文本的向量表
STEP 3:在训练文本集中选出与新文本最相似的K 个文本
(K 值的确定目前没有很好的方法,一般采用先定一个初始值,然后根据实验测)
STEP 4:在新文本的K个邻居中依次计算每类权重
STEP 5:比较类的权重将文本分到权重最大的类别中
电影类别分类
建立二维模型(打斗,接吻,类别)
计算K个距离最近的电影
K近邻算法扩展学习
近邻的距离度量
欧式距离
曼哈顿距离
切比雪夫距离
闵可夫斯基距离(Minkowski Distance)
标准化欧氏距离 (Standardized Euclidean distance )
马氏距离(Mahalanobis Distance)
巴氏距离(Bhattacharyya Distance)
汉明距离(Hamming distance)
夹角余弦(Cosine)
杰卡德相似系数(Jaccard similarity coefficient)
皮尔逊系数(Pearson Correlation Coefficient)
R树、球树、M树、VP树、MVP树
KD树的应用:SIFT+KD_BBF搜索算法
参考文献
维基百科,/wiki/K-nearest_neighbor_algorithm
机器学习中的相似性度量,/heaad/archive/2011/03/08/1977733.html
数据挖掘:实用机器学习技术,[新西兰]Ian H.Witten 著,第4章4.7节
电子科
您可能关注的文档
- 专题11内能及其利用第02期2016年中考物理试题分项版解析汇编原卷.pdf
- 研究生英语影视听说classic your pursuit of happyness.pptx
- 讲义教案上课大纲.pdf
- 文本分析中油海ctr3300文件105113d0910081c.pdf
- 广东省梅县东山中学2014届高三物理上学期期中试题新人教版.pdf
- 知识点26带电粒子在复合场中的运动.pdf
- 讲稿2015注意力故事下册.pdf
- 典范英语2b l3教学参考.pdf
- cn一种具有滚动运动申请公开.pdf
- 第五章功能强大的对象建模工具uml顺序图步骤.pdf
- 2025年广西中考地理二轮复习:专题四+人地协调观+课件.pptx
- 2025年广西中考地理二轮复习:专题三+综合思维+课件.pptx
- 2025年中考地理一轮教材梳理:第4讲+天气与气候.pptx
- 第5讲+世界的居民课件+2025年中考地理一轮教材梳理(商务星球版).pptx
- 冀教版一年级上册数学精品教学课件 第1单元 熟悉的数与加减法 1.1.6 认识1-9 第6课时 合与分.ppt
- 2025年中考一轮道德与法治复习课件:坚持宪法至上.pptx
- 2025年河北省中考一轮道德与法治复习课件:崇尚法治精神.pptx
- 八年级下册第二单元+理解权利义务+课件-2025年吉林省中考道德与法治一轮复习.pptx
- 精品解析:湖南省娄底市2019-2020学年八年级(上)期中考试物理试题(原卷版).doc
- 2025年中考地理一轮教材梳理:第10讲+中国的疆域与人口.pptx
文档评论(0)