源代码基于python实现近邻算法回归问题-peaker.pdfVIP

下载本文档

0
0
约2.22千字
约 4页
2024-11-05 发布于北京
举报
版权申诉

源代码基于python实现近邻算法回归问题-peaker.pdf

1、本文档共4页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

#源代码#基于Python实现K近邻算法回归问题

Peaker

K近邻算法在分类问题中有着卓越的表现，这主要是源于其

参数n_neighbor和weight的选择。k近邻算法的想法很简单，类似于

多数表决，关键点是参与多数表决的人是离你最近的k个人。

给定一个实例，首先从训练集中找到离这个实例最近的k个实例，然

后根据这k个实例中哪个出现次数最多决定该实例的。需要

注意的点是：

a.距离的度量

b.k值得选取

c.和速度

使用的距离不同，k近邻的结果也会不同的，即“由不同的距离度量所

确定的最邻近点是不同的。”

如果每次都计算每个训练实例和输入实例的距离显然是非常耗时

间的，对于样本数量比较大的训练集这是不可行的。一般构造kd树(属

于二叉树)来实现k近邻算法。提升速度，减少量。

kd树的构造是一个递归过程，其思想是对k（假设数据集

在这个k中）进行划分，每次划分在一个维度中进行，取该维

所有实例中位数为切分点，切分由通过切分点并与该维坐标轴垂直的

超平面实现。

kd树的每个节点都是一个实例，相邻的节点，父节点与子节点之

间是近邻的。给定一个目标点，搜索其最近邻，首先找到包含目标点的

叶节点，然后从该叶节点出发，依次回退到父节点，不断查找与目标节

点最邻近的节点，当确定不可能存在更近的节点时终止。这样搜索就

被限制在空间的局部区域上，提高了搜索近邻的效率。

k值得选择非常重要，不合适的k值结果可能会很不理想。

如果选择的比较小的话，相当于用较小邻域中的训练实例进行预测，

学习的近似误差会减少，只有与输入实例较近的训练实例才会对预测

结果起作用，缺点是学习的估计误差会增大，易受噪声影响，情况

是k=1；

如果k值选取的比较大，相当于用较大邻域中德训练实例进行预测，

学习的估计误差会减少，但是近似误差会增大，而且与输入实例较远

的训练实例也会对预测起作用，是预测结果错误，k值的增大意味着整

体模型变得简单。因为划分的区域少了，更容易进行预测结果。情

况是k=n.

今天我们就利用Python机器学习包来为大家演示一下如何实现K

近邻算法实现回归问题，并且比较选择不同K（n_neighbor）时的回归

拟合效果。为了可视化拟合效果，这里数据设为二维。

左侧为特征值，右侧为target值，共40个数据点。

从k=5到k=10的回归预测结果如下

以上是K=5到k=10的比较结果。黑色点为数据点，绿色为k近邻回

归拟合曲线。可见K=5到k=10并没有显著区别，可见K近邻算法本

身具有相当高的稳健性和准确性。那么我们在比较一下两种weight下

是否存在结果上的差异。

如图，上面为weight选择uniform时的结果，下面为weight选

您可能关注的文档

文档评论（0）

honglajiao + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

源代码基于python实现近邻算法回归问题-peaker.pdfVIP