- 1、本文档共15页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
最、K近邻法精要
最/K 近邻法——分类王嘉要最初的近邻法是由Cover和Hart于1968年提出的,由于对该方法在理论上进行了深入分析,直至现在仍是模式识别非参数法中最重要的方法之一。数据:图像分割数据,虹膜植物数据编程语言:Python关键词:最\K-近邻法(KNN)、决策规则、欧氏距离、错误率、图像分割、虹膜植物识别最\K-近邻法简介近邻法是一种根据样本提供的信息,绕开概率的估计而直接决策的技术,所以它也属于非参数判别方法的一种。模式识别的基本方法有两大类,一类是将特征空间划分成决策域,这就要确定判别函数和分界面方程。而另一种方法则称为模板匹配,即将待分类样本与标准模板进行比较,看跟哪个模板匹配度更好些,从而确定待测试样本的分类。近邻法则在原理上属于模板匹配。它将训练样本集中的每个样本都作为模板,用测试样本与每个模板做比较,看与哪个模板最相似(即为近邻),就按最近似的模板的类别作为自己的类别。最近邻决策规则假定有个类别的模式识别问题,每类有标明类别的样本,我们可以规定类的判别函数为:其中的角标表示类,表示类个样本中的第个,决策规则可以写为若则决策这一决策方法成为最近邻法。其直观解释时相当简单的,就是说对未知样本,我们只要比较与个已知类别的样本之间的欧氏距离,并决策与离它最近的样本同类。K-近邻法最近邻法的一个显然的推广是K-近邻法。从字义上看,这个方法就是取位未知样本的个近邻,看这个近邻中多数属于哪一类,就把归为哪一类。具体说就是在个已知样本中,找出的个近邻。设这个样本中,来自类的样本有个,若分别是个近邻中属于类的样本数,则我们可以定义判别函数为决策规则为:若则决策KNN算法使用KNN算法讲每组数据划分到某个类中,对未知类别属性的数据集中的每个点依次执行以下操作:计算已知类别数据集中的点与当前点之间的距离;按照距离递增次序排序;选取与当前点距离最小的k个点;确定前k个点所在类别的出现频率;返回前k个点出现频率最高的类别作为当前点的预测分类。Python函数classify()实现上述过程,程序清单如下:def classify(inx,dataset,labels,k):#对一组属性数据“inx”分类,返回类别“sortedClassCount[0][0]”datasetSize = dataset.shape[0]diffMat = tile(inx,(datasetSize,1)) - datasetsqDiffMat = diffMat**2欧式距离计算sqDistance = sqDiffMat.sum(axis=1)distance = sqDistance**0.5sortedDistIndicies = distance.argsort()classCount = {}for i in range(k):voteILabel = labels[sortedDistIndicies[i]]选择距离最classCount[voteILabel[0]] = classCount.get(voteILabel[0],0)+1 小的k个点sortedClassCount = sorted(classCount.iteritems(),key=operator.itemgetter(1),reverse=True) 逆序排序return sortedClassCount[0][0]classify()函数有4个输入参数,1个返回参数:inx:用于分类的输入属性向量;dataset:输入的训练样本集;labels:训练样本集的标签向量;k:表示用于选择最近邻居的数目。sortedClassCount[0][0]:k个近邻中发生频次最高的元素标签。在执行classify()函数之前,要先将训练样本和测试样本的’.txt‘文件转换成classify()函数可以接受的格式。创建filematrix()函数,来处理样本集文件,参数如下:filename:输入文件名字符串;returnMat:返回的样本矩阵;classLabelVector:返回的样本类标签向量。程序清单如下:def filematrix(filename):#打开数据集的’.txt’文件,提取并返回属性矩阵”returnMat”和类别向量”classLabelVector”fr = open(filename)arrayOLines = fr.readlines()numberOfLines = len(arrayOLines)#得到文件行数returnMat = zeros((numberOfLines,19))#创建返回的NumPy矩阵classLabelVector = []index = 0for line in arrayOLines:li
您可能关注的文档
- 曲线题课件.ppt
- 动眼神经解剖.pptx
- 生药的知识.pptx
- 智能楼宇解决方案.ppt
- 生理学 第12章生殖.ppt
- 生鲜冷链硕士论文答辩.ppt
- 生鲜熟食商品知识(2002.11.25).ppt
- 动脉瘤的护理-赵康.ppt
- 生殖与衰老.ppt
- 动脉瘤性蛛网膜下腔出血处理指南-2012-美国心脏协会美国卒中协会对医疗专业人员的声明-徐明 - 副本.ppt
- 2024-2030年硬质聚合物包覆石英纤维行业市场现状供需分析及投资评估规划分析研究报告.docx
- 2024-2030年空气动力车辆行业市场现状供需分析及重点企业投资评估规划分析研究报告.docx
- 2024-2030年程序担架行业市场现状供需分析及重点企业投资评估规划分析研究报告.docx
- 2024-2030年稀土镁行业市场发展分析及发展趋势与投资前景研究报告.docx
- 2024-2030年离子选择性临床实验室分析仪行业市场现状供需分析及重点企业投资评估规划分析研究报告.docx
- 2024-2030年紧急停止脚踏开关行业市场现状供需分析及重点企业投资评估规划分析研究报告.docx
- 2024-2030年电源逆变器行业市场发展趋势与前景展望战略分析报告.docx
- 2024-2030年电热水壶行业风险投资发展分析及投资融资策略研究报告.docx
- 2024-2030年真空成型托盘行业市场现状供需分析及重点企业投资评估规划分析研究报告.docx
- 2024-2030年矿山工程行业市场深度调研及前景趋势与投资研究报告.docx
文档评论(0)