参考文稿k近邻算法.pptx

下载文档

19
0
约2.15千字
约 13页
2021-11-07 发布于北京
举报
版权申诉
保障服务

参考文稿k近邻算法.pptx

1、本文档共13页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

K近邻算法KNN（K-nearest neighbors）讲解人：曾龙海什么是K近邻算法民间说法：K个最近的邻居，当K=1时，算法便成了最近邻算法，即寻找最近的那个邻居。为何要找邻居？打个比方来说，假设你来到一个陌生的村庄，现在你要找到与你有着相似特征的人群融入他们。官方说法：所谓K近邻算法，即是给定一个训练数据集，对新的输入实例，在训练数据集中找到与该实例最邻近的K个实例（也就是上面所说的K个邻居），这K个实例的多数属于某个类，就把该输入实例分类到这个类中。 K=3绿色的这个待分类点属于红色的三角形一类。 K=5绿色的这个待分类点属于蓝色的正方形一类。 K值如何选择？ K=1最近邻算法 K=N不可取 K选取较小值就相当于用较小的领域中的训练实例进行预测，“学习”近似误差会减小，只有与输入实例较近或相似的训练实例才会对预测结果起作用，与此同时带来的问题是“学习”的估计误差会增大，换句话说，K值的减小就意味着整体模型变得复杂。 K选取较大值就相当于用较大领域中的训练实例进行预测，其优点是可以减少学习的估计误差，但缺点是学习的近似误差会增大。这时候，与输入实例较远（不相似的）训练实例也会对预测器作用，使预测发生错误，且K值的增大就意味着整体的模型变得简单。在实际应用中，K值一般取一个比较小的数值，例如采用交叉验证法（简单来说，就是一部分样本做训练集，一部分做测试集）来选择最优的K值 K近邻算法实现-KD树什么是KD树？ k-d树（k-dimension tree）是一种空间划分树，说白了就是把整个空间划分为特定的几个部分，然后在特定空间的部分内进行相关搜索操作。二维三维 K近邻算法实现-KD树 KD树数据结构 KD树构建伪代码流程图 K近邻算法实现-KD树 KD树构造假设有6个二维数据点{（2,3），（5,4），（9,6），（4,7），（8,1），（7,2）} 1）确定：split域=x 求解方法：计算各维度方差，取最大方差维度，这里各维度方差值为（39, 28.63） 2）确定：Node-data = （7,2）求解方法：将选取好的split域进行排序（2,4,5,7,8,9），选取中间值7，超平面切割点线为x=7 3）确定：左子空间和右子空间求解方法：将选取好的平面切割线x=7将空间分为两部分，x=7的为左子空间={(2,3),(5,4),(4,7)} x7的为右子空间={(9,6)，(8,1)} K近邻算法实现-KD树 KD树构造的树状图 KD树划分的二维平面图 K近邻算法实现-KD树 KD树近邻搜索查询点（2.1,3.1）半径r=0.1414画圆回溯（5,4）（7,2） K近邻算法实现-KD树 KD树近邻搜索查询点（2，4.5）近邻（4,7）半径r=3.202画圆回溯（5,4）与y=4有交割,进入（5,4）左子树搜索发现近邻（2,3）获得半径r=1.5画圆回溯（7,2） K近邻算法应用文本分类该算法的基本思路是：在给定新文本后，考虑在训练文本集中与该新文本距离最近（最相似）的K 篇文本，根据这K 篇文本所属的类别判定新文本所属的类别。 STEP 1：根据特征项集合重新描述训练文本向量 STEP 2：根据特征词分析新文本，确定新文本的向量表 STEP 3：在训练文本集中选出与新文本最相似的K 个文本（K 值的确定目前没有很好的方法，一般采用先定一个初始值，然后根据实验测） STEP 4：在新文本的K个邻居中依次计算每类权重 STEP 5：比较类的权重将文本分到权重最大的类别中电影类别分类建立二维模型（打斗，接吻，类别）计算K个距离最近的电影 K近邻算法扩展学习近邻的距离度量欧式距离曼哈顿距离切比雪夫距离闵可夫斯基距离(Minkowski Distance) 标准化欧氏距离 (Standardized Euclidean distance ) 马氏距离(Mahalanobis Distance) 巴氏距离（Bhattacharyya Distance）汉明距离(Hamming distance) 夹角余弦(Cosine) 杰卡德相似系数(Jaccard similarity coefficient) 皮尔逊系数(Pearson Correlation Coefficient) R树、球树、M树、VP树、MVP树 KD树的应用：SIFT+KD_BBF搜索算法参考文献维基百科，/wiki/K-nearest_neighbor_algorithm 机器学习中的相似性度量，/heaad/archive/2011/03/08/1977733.html 数据挖掘：实用机器学习技术，[新西兰]Ian H.Witten 著，第4章4.7节电子科