专题3-基于MapReduce-的KNN并行分类算法.pptx

下载文档

12
0
约4.94千字
约 30页
2018-12-18 发布于福建
举报
版权申诉
保障服务

专题3-基于MapReduce-的KNN并行分类算法.pptx

1、本文档共30页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

Big Data Algorithm and Practice大数据算法与实践金运志E-mail: jyzkm@swfu.edu.cnSouthwest Forestry University,School of Big Data and Intelligence Engineering大数据与智能工程学院数据科学与工程系基于MapReduce 的KNN并行分类算法1 KNN算法概述2 KNN分类算法3 基于MapReduce的KNN并行分类算法1.1 KNN算法的由来(1)猜猜看：最后一行未知电影属于什么类型的电影。电影名称打斗次数接吻次数电影类型California Man??3104RomanceHe’s Not Really into Dudes??2100RomanceBeautiful Woman??181RomanceKevin Longblade??10110ActionRobo Slayer 3000??995ActionAmped II??982Action？1890Unknown1.1 KNN算法的由来(2)猜猜看：最后一行未知点属于什么类型的点。点X坐标Y坐标点类型A点?3104RomanceB点?2100RomanceC点?181RomanceD点?10110ActionE点?995ActionF点982ActionG点1890Unknown1.1 KNN算法的由来(3)想一想：下面图片中只有三种豆，有三个豆是未知的种类，如何判定他们的种类？1968年，Cover和Hart提出了最初的近邻法。1.1 KNN算法的由来(4)最近邻算法提供一种思路，即：未知的豆离哪种豆最近就认为未知豆和该豆是同一种类。由此，我们引出最近邻算法的定义：为了判定未知样本的类别，以全部训练样本作为代表点，计算未知样本与所有训练样本的距离，并以最近邻者的类别作为决策未知样本类别的唯一依据。但是，最近邻算法明显是存在缺陷的，我们来看一个例子。1.1 KNN算法的由来(5)问题：有一个未知形状X(图中绿色的圆点)，如何判断X是什么形状?1.1 KNN算法的由来(6)K-最近邻算法显然，通过上面的例子我们可以明显发现最近邻算法的缺陷——对噪声数据过于敏感，为了解决这个问题，我们可以可以把位置样本周边的多个最近样本计算在内，扩大参与决策的样本量，以避免个别数据直接决定决策结果。由此，我们引进K-最近邻(KNN)算法。1.2 什么是KNN算法？KNN（K Nearest Neighbor）算法，又叫K最邻近分类算法，所谓K最近邻，就是K个最近的邻居的意思，说的是每个样本都可以用它最接近的K个邻居来代表。KNN算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别，则该样本也属于这个类别，并具有这个类别上样本的特性。该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。 1.3 KNN算法介绍最简单最初级的分类器是将全部的训练数据所对应的类别都记录下来，当测试对象的属性和某个训练对象的属性完全匹配时，便可以对其进行分类。但是怎么可能所有测试对象都会找到与之完全匹配的训练对象呢，其次就是存在一个测试对象同时与多个训练对象匹配，导致一个训练对象被分到了多个类的问题，基于这些问题呢，就产生了KNN。KNN是通过测量不同特征值之间的距离进行分类。KNN算法的指导思想是“近朱者赤，近墨者黑”，由你的邻居来推断出你的类别。输入：已分类的N个样本数据点，设定最近邻的个数K输出：测试样本数据点的分类结果----算法描述-------------------------1）计算测试数据与各个训练数据之间的距离；2）按照距离的递增关系进行排序；3）选取距离最小的K个点；4）确定前K个点所在类别的出现频率；5）返回前K个点中出现频率最高的类别作为测试数据的预测分类。问题：如下图，有一个未知形状X(图中绿色的圆点)，如何判断X是什么形状?绿色圆要被决定赋予哪个类，是红色三角形还是蓝色四方形？如果K=3，由于红色三角形所占比例为2/3，绿色圆将被赋予红色三角形那个类；如下图，绿色圆要被决定赋予哪个类，是红色三角形还是蓝色四方形？如果K=5，由于蓝色四方形比例为3/5，因此绿色圆被赋予蓝色四方形类。KNN算法的结果很大程度取决于K的选择。KNN算法是分类数据最简单、最有效的算法，容易实现；该算法通过对K的选择可具备丢噪音数据的健壮性。K的选取会影响到最终测试数据点的分类结果；KNN算法必须保存全部数据集，如果训练的数据集很大，必须使用大量的空间储存已知的实例；算法的复杂度高（需要比较所有已知实例与要分类的实例），即距离值的计算和比较时的计算量较大；无法给出任何数据的基础结构信息，因此我们也无法知道平均实