源代码基于python实现近邻算法回归问题-peaker.pdfVIP

源代码基于python实现近邻算法回归问题-peaker.pdf

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

#源代码#基于Python实现K近邻算法回归问题

Peaker

K近邻算法在分类问题中有着卓越的表现,这主要是源于其

参数n_neighbor和weight的选择。k近邻算法的想法很简单,类似于

多数表决,关键点是参与多数表决的人是离你最近的k个人。

给定一个实例,首先从训练集中找到离这个实例最近的k个实例,然

后根据这k个实例中哪个出现次数最多决定该实例的。需要

注意的点是:

a.距离的度量

b.k值得选取

c.和速度

使用的距离不同,k近邻的结果也会不同的,即“由不同的距离度量所

确定的最邻近点是不同的。”

如果每次都计算每个训练实例和输入实例的距离显然是非常耗时

间的,对于样本数量比较大的训练集这是不可行的。一般构造kd树(属

于二叉树)来实现k近邻算法。提升速度,减少量。

kd树的构造是一个递归过程,其思想是对k(假设数据集

在这个k中)进行划分,每次划分在一个维度中进行,取该维

所有实例中位数为切分点,切分由通过切分点并与该维坐标轴垂直的

超平面实现。

kd树的每个节点都是一个实例,相邻的节点,父节点与子节点之

间是近邻的。给定一个目标点,搜索其最近邻,首先找到包含目标点的

叶节点,然后从该叶节点出发,依次回退到父节点,不断查找与目标节

点最邻近的节点,当确定不可能存在更近的节点时终止。这样搜索就

被限制在空间的局部区域上,提高了搜索近邻的效率。

k值得选择非常重要,不合适的k值结果可能会很不理想。

如果选择的比较小的话,相当于用较小邻域中的训练实例进行预测,

学习的近似误差会减少,只有与输入实例较近的训练实例才会对预测

结果起作用,缺点是学习的估计误差会增大,易受噪声影响,情况

是k=1;

如果k值选取的比较大,相当于用较大邻域中德训练实例进行预测,

学习的估计误差会减少,但是近似误差会增大,而且与输入实例较远

的训练实例也会对预测起作用,是预测结果错误,k值的增大意味着整

体模型变得简单。因为划分的区域少了,更容易进行预测结果。情

况是k=n.

今天我们就利用Python机器学习包来为大家演示一下如何实现K

近邻算法实现回归问题,并且比较选择不同K(n_neighbor)时的回归

拟合效果。为了可视化拟合效果,这里数据设为二维。

左侧为特征值,右侧为target值,共40个数据点。

从k=5到k=10的回归预测结果如下

以上是K=5到k=10的比较结果。黑色点为数据点,绿色为k近邻回

归拟合曲线。可见K=5到k=10并没有显著区别,可见K近邻算法本

身具有相当高的稳健性和准确性。那么我们在比较一下两种weight下

是否存在结果上的差异。

如图,上面为weight选择uniform时的结果,下面为weight选

文档评论(0)

honglajiao + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档