Python机器学习项目化教程（微课视频版）课件第4章 k近邻算法与非参数估计.pptx

下载文档

0
0
约3.59千字
约 19页
2024-10-30 发布于福建
举报
版权申诉
保障服务

Python机器学习项目化教程（微课视频版）课件第4章 k近邻算法与非参数估计.pptx

1、本文档共19页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第4章k近邻算法与非参数估计

目录CONTENTS4.1k近邻算法原理4.2k近邻算法的应用4.3非参数估计4.5本章小结4.4非参数估计算法的实现

4.1k近邻算法原理学习基础学习认知能力信息素养高假设X_test为待标记的样本，X_train为已标记的数据集，算法原理描述如下：（2）对数组D[]进行排序，取距离最近的k个点，记为X_knn。在X_knn中统计每个类别的个数，即class0在X_knn中有几个样本，class1在X_knn中有几个样本等。010203（1）遍历X_train中的所有样本，计算每个样本与X_test的距离，并把距离保存在数组D[]中。待标记样本的类别，就是在X_knn中样本个数最多的那个类别。

4.2k近邻算法应用学习基础学习认知能力信息素养高Iris鸢尾花数据集（iris_training.csv）的数据可分为3类（iris-setosa，iris-versicolour，iris-virginica），共150条记录，每类各50个数据，每条记录有4个属性：花萼长度（SepalLength）、花萼宽度（SepalWidth）、花瓣长度（PetalLength）、花瓣宽度（PetalWidth），可以通过这4个特征预测鸢尾花属于哪一类。column_names=[SepalLength,SepalWidth,PetalLength,PetalWidth,Species]iris_data=pd.read_csv(iris_training.csv,header=0,names=column_names)print(df_iris.head())

4.2k近邻算法应用学习基础学习认知能力信息素养高Iris鸢尾花数据集（iris_training.csv）的预测类别:[1.0,2.0,0.0,1.0,1.0,1.0,0.0,2.0,1.0,2.0,2.0,0.0,2.0,1.0,1.0,0.0,1.0,0.0,0.0,2.0,0.0,1.0,2.0,2.0,1.0,1.0,0.0,1.0,2.0,1.0]Accuracy:96.66666666666667%

4.3非参数估计4.3.1非参数估计与参数估计1.直方图估计法对于随机变量X的一组抽样，即使X的值是连续的，我们也可以划分出若干宽度相同的区间，统计这组样本在各个区间的频率，并画出直方图。

4.3非参数估计4.3.1非参数估计与参数估计2.Parzen矩形窗估计Parzen矩形窗是以目标样本x作为中心点，根据窗口大小h，判断样本落入以x为中心的窗口内的样本数，从而得到x的概率。Parzen矩形窗估计与直方图估计的区别：Parzen矩形窗是根据目标样本点x确定矩形窗，直方图估计是先确定矩形窗，然后根据样本点找相应的矩形窗。

4.3非参数估计4.3.1非参数估计与参数估计3.Parzen正态核窗估计当满足以下条件时，一维情况：

4.3非参数估计4.3.2非参数估计的一般推导假设p(x’)是x’的密度函数，向量x落在区域R的概率为：N个向量中k个向量落在R内的概率为：k/N的均值和方差分别为：当N→∞时，频率与概率的取值趋于相等，有：

4.4基于k近邻算法的实现下面我们对给定的鱼类数据，分别利用直方图估计、Parzen矩形窗估计和Parzen正态核估计实现kNN分类。给定的鱼类数据存放在文件fish.xls中，包含一维数据和二维数据两种类型，各2000条，一维数据的前6条如下：

4.4基于k近邻算法的实现1利用直方图估计概率密度、分类数据预处理importxlrdfromoperatorimportitemgetterimportmatplotlib.pyplotaspltimportnumpyasnpreadbook=xlrd.open_workbook(rFish.xls)sheet=readbook.sheet_by_index(1)#索引的方式，从0开始sheet=readboo

您可能关注的文档

文档评论（0）

xiaobao + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

Python机器学习项目化教程（微课视频版）课件第4章 k近邻算法与非参数估计.pptx