- 1、本文档共19页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
第4章k近邻算法与非参数估计
目录CONTENTS4.1k近邻算法原理4.2k近邻算法的应用4.3非参数估计4.5本章小结4.4非参数估计算法的实现
4.1k近邻算法原理学习基础学习认知能力信息素养高假设X_test为待标记的样本,X_train为已标记的数据集,算法原理描述如下:(2)对数组D[]进行排序,取距离最近的k个点,记为X_knn。在X_knn中统计每个类别的个数,即class0在X_knn中有几个样本,class1在X_knn中有几个样本等。010203(1)遍历X_train中的所有样本,计算每个样本与X_test的距离,并把距离保存在数组D[]中。待标记样本的类别,就是在X_knn中样本个数最多的那个类别。
4.2k近邻算法应用学习基础学习认知能力信息素养高Iris鸢尾花数据集(iris_training.csv)的数据可分为3类(iris-setosa,iris-versicolour,iris-virginica),共150条记录,每类各50个数据,每条记录有4个属性:花萼长度(SepalLength)、花萼宽度(SepalWidth)、花瓣长度(PetalLength)、花瓣宽度(PetalWidth),可以通过这4个特征预测鸢尾花属于哪一类。column_names=[SepalLength,SepalWidth,PetalLength,PetalWidth,Species]iris_data=pd.read_csv(iris_training.csv,header=0,names=column_names)print(df_iris.head())
4.2k近邻算法应用学习基础学习认知能力信息素养高Iris鸢尾花数据集(iris_training.csv)的数据可分为3类(iris-setosa,iris-versicolour,iris-virginica),共150条记录,每类各50个数据,每条记录有4个属性:花萼长度(SepalLength)、花萼宽度(SepalWidth)、花瓣长度(PetalLength)、花瓣宽度(PetalWidth),可以通过这4个特征预测鸢尾花属于哪一类。
4.2k近邻算法应用学习基础学习认知能力信息素养高Iris鸢尾花数据集(iris_training.csv)的预测类别:[1.0,2.0,0.0,1.0,1.0,1.0,0.0,2.0,1.0,2.0,2.0,0.0,2.0,1.0,1.0,0.0,1.0,0.0,0.0,2.0,0.0,1.0,2.0,2.0,1.0,1.0,0.0,1.0,2.0,1.0]Accuracy:96.66666666666667%
4.3非参数估计4.3.1非参数估计与参数估计1.直方图估计法对于随机变量X的一组抽样,即使X的值是连续的,我们也可以划分出若干宽度相同的区间,统计这组样本在各个区间的频率,并画出直方图。
4.3非参数估计4.3.1非参数估计与参数估计2.Parzen矩形窗估计Parzen矩形窗是以目标样本x作为中心点,根据窗口大小h,判断样本落入以x为中心的窗口内的样本数,从而得到x的概率。Parzen矩形窗估计与直方图估计的区别:Parzen矩形窗是根据目标样本点x确定矩形窗,直方图估计是先确定矩形窗,然后根据样本点找相应的矩形窗。
4.3非参数估计4.3.1非参数估计与参数估计3.Parzen正态核窗估计当满足以下条件时,一维情况:
4.3非参数估计4.3.2非参数估计的一般推导假设p(x’)是x’的密度函数,向量x落在区域R的概率为:N个向量中k个向量落在R内的概率为:k/N的均值和方差分别为:当N→∞时,频率与概率的取值趋于相等,有:
4.4基于k近邻算法的实现下面我们对给定的鱼类数据,分别利用直方图估计、Parzen矩形窗估计和Parzen正态核估计实现kNN分类。给定的鱼类数据存放在文件fish.xls中,包含一维数据和二维数据两种类型,各2000条,一维数据的前6条如下:
4.4基于k近邻算法的实现1利用直方图估计概率密度、分类数据预处理importxlrdfromoperatorimportitemgetterimportmatplotlib.pyplotaspltimportnumpyasnpreadbook=xlrd.open_workbook(rFish.xls)sheet=readbook.sheet_by_index(1)#索引的方式,从0开始sheet=readboo
您可能关注的文档
- 《Vue.js超详细入门与项目实战》课件全套 李永亮 第1--10章 vue 3简介 ---vue 3详解.pptx
- Python机器学习项目化教程(微课视频版) 教学大纲.pdf
- Python机器学习项目化教程(微课视频版)课件 第1章 机器学习概述.pptx
- Python机器学习项目化教程(微课视频版)课件 第2章 机器学习基础及Python常用库.pptx
- Python机器学习项目化教程(微课视频版)课件 第3章 朴素贝叶斯分类器.pptx
- Python机器学习项目化教程(微课视频版)课件 第5章 聚类.pptx
- Python机器学习项目化教程(微课视频版)课件 第6章 回归分析.pptx
- Python机器学习项目化教程(微课视频版)课件 第7章 决策树.pptx
- Python机器学习项目化教程(微课视频版)课件 第8章 支持向量机.pptx
- Python机器学习项目化教程(微课视频版)课件 第9章 降维分析.pptx
最近下载
- 北京百师联盟信息技术研究院.doc
- 2.6《观察与比较》教学设计-2024-2025学年一年级上册科学教科版.docx VIP
- 人教版道德与法治二年级上册《这些是大家的》课件.pptx
- 中国特色大国外交和推动构建人类命运共同体.pptx
- 《产品质量鉴定程序规范 总则》.doc VIP
- 七年级数学(沪教版)上册课件-【第2课时 添括号】.pptx
- The Catcher int heRye麦田守望者英文版.doc
- 农药登记残留试验待测残留物和植物源性食品膳食风险评估残留物目录(2020版).docx
- 甲醇羰基化法制备醋酸.pptx
- 超星网课尔雅《走近核科学技术》超星尔雅答案2023章节测验答案.pdf
文档评论(0)