Python机器学习项目化教程(微课视频版)课件 第4章 k近邻算法与非参数估计.pptx

Python机器学习项目化教程(微课视频版)课件 第4章 k近邻算法与非参数估计.pptx

  1. 1、本文档共19页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

第4章k近邻算法与非参数估计

目录CONTENTS4.1k近邻算法原理4.2k近邻算法的应用4.3非参数估计4.5本章小结4.4非参数估计算法的实现

4.1k近邻算法原理学习基础学习认知能力信息素养高假设X_test为待标记的样本,X_train为已标记的数据集,算法原理描述如下:(2)对数组D[]进行排序,取距离最近的k个点,记为X_knn。在X_knn中统计每个类别的个数,即class0在X_knn中有几个样本,class1在X_knn中有几个样本等。010203(1)遍历X_train中的所有样本,计算每个样本与X_test的距离,并把距离保存在数组D[]中。待标记样本的类别,就是在X_knn中样本个数最多的那个类别。

4.2k近邻算法应用学习基础学习认知能力信息素养高Iris鸢尾花数据集(iris_training.csv)的数据可分为3类(iris-setosa,iris-versicolour,iris-virginica),共150条记录,每类各50个数据,每条记录有4个属性:花萼长度(SepalLength)、花萼宽度(SepalWidth)、花瓣长度(PetalLength)、花瓣宽度(PetalWidth),可以通过这4个特征预测鸢尾花属于哪一类。column_names=[SepalLength,SepalWidth,PetalLength,PetalWidth,Species]iris_data=pd.read_csv(iris_training.csv,header=0,names=column_names)print(df_iris.head())

4.2k近邻算法应用学习基础学习认知能力信息素养高Iris鸢尾花数据集(iris_training.csv)的数据可分为3类(iris-setosa,iris-versicolour,iris-virginica),共150条记录,每类各50个数据,每条记录有4个属性:花萼长度(SepalLength)、花萼宽度(SepalWidth)、花瓣长度(PetalLength)、花瓣宽度(PetalWidth),可以通过这4个特征预测鸢尾花属于哪一类。

4.2k近邻算法应用学习基础学习认知能力信息素养高Iris鸢尾花数据集(iris_training.csv)的预测类别:[1.0,2.0,0.0,1.0,1.0,1.0,0.0,2.0,1.0,2.0,2.0,0.0,2.0,1.0,1.0,0.0,1.0,0.0,0.0,2.0,0.0,1.0,2.0,2.0,1.0,1.0,0.0,1.0,2.0,1.0]Accuracy:96.66666666666667%

4.3非参数估计4.3.1非参数估计与参数估计1.直方图估计法对于随机变量X的一组抽样,即使X的值是连续的,我们也可以划分出若干宽度相同的区间,统计这组样本在各个区间的频率,并画出直方图。

4.3非参数估计4.3.1非参数估计与参数估计2.Parzen矩形窗估计Parzen矩形窗是以目标样本x作为中心点,根据窗口大小h,判断样本落入以x为中心的窗口内的样本数,从而得到x的概率。Parzen矩形窗估计与直方图估计的区别:Parzen矩形窗是根据目标样本点x确定矩形窗,直方图估计是先确定矩形窗,然后根据样本点找相应的矩形窗。

4.3非参数估计4.3.1非参数估计与参数估计3.Parzen正态核窗估计当满足以下条件时,一维情况:

4.3非参数估计4.3.2非参数估计的一般推导假设p(x’)是x’的密度函数,向量x落在区域R的概率为:N个向量中k个向量落在R内的概率为:k/N的均值和方差分别为:当N→∞时,频率与概率的取值趋于相等,有:

4.4基于k近邻算法的实现下面我们对给定的鱼类数据,分别利用直方图估计、Parzen矩形窗估计和Parzen正态核估计实现kNN分类。给定的鱼类数据存放在文件fish.xls中,包含一维数据和二维数据两种类型,各2000条,一维数据的前6条如下:

4.4基于k近邻算法的实现1利用直方图估计概率密度、分类数据预处理importxlrdfromoperatorimportitemgetterimportmatplotlib.pyplotaspltimportnumpyasnpreadbook=xlrd.open_workbook(rFish.xls)sheet=readbook.sheet_by_index(1)#索引的方式,从0开始sheet=readboo

文档评论(0)

xiaobao + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档