- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
SPSSAU-在线SPSS分析软件
K近邻算法KNNk-nearestneighborSPSSAU
K近邻KNN模型
Contents
1背景2
2理论2
3操作3
4SPSSAU输出结果4
5文字分析4
6剖析6
K近邻KNN(k-nearestneighbor)是一种简单易懂的机器学习算法,其原理是找出挨着自
己最近的K个邻居,并且根据邻居的类别来确定自己的类别情况。比如K为5个,即找出挨着
自己最近的5个邻居,5个邻居中有4个是‘富人’,那么自己也会被标签为‘富人’。此处涉及几
个点,一是距离如何计算,二是K值如何选择,三是如何归类。接下来案例部分将具体进行说
明。
除此之外,K近邻KNN模型与Kmeans有些类似,二者目的都是分类,但Kmeans是事先
不知道数据如何分类,KNN事先已经知道如何分类,二者有时候可以匹配着使用,比如先使用
kmeans得到聚类类别,然后使用KNN模型分析聚类效果情况等。
SPSSAU-在线SPSS分析软件
K近邻KNN模型案例
Contents
1背景2
2理论2
3操作3
4SPSSAU输出结果4
5文字分析4
6剖析6
1背景
K近邻模型依旧经典的‘鸢尾花分类数据集’进行案例演示,其数据集为150个样本,包括4
个特征属性(4个自变量X),标签为鸢尾花卉类别,其分为3个类别分别是刚毛鸢尾花、变色
鸢尾花和弗吉尼亚鸢尾花(下称A、B、C三类)。
2理论
K近邻KNN模型的原理上示意如下图:
比如红色点,挨着其最近的5个点(K=5时)如上图,如果该5个点中多数均为A类,那
么红色点就归为A类。需要注意的是,通常情况下K值为奇数,因为如果为偶数比如为6,那
么3个为A类3个为B类,此时不好划分点的类别。
上述中关于挨的最近的距离,如何进行衡量呢?距离的计算方式非常多,比如欧式距离、曼
哈顿距离等,通常情况下使用欧式距离,其计算公式如下:
√222
欧式距离=(−)+(−)+⋯+(−)
1122
比如有两行数据分别3列(即3个X,3个特征项),两行数据分别是(1,2,3)和(3,
222
4,5),那么欧式距离=(3−1)+(4−2)+(5−3)=3.464。
√
另外关于K值的选择上,通常建议K介于3~20之间,且一般为奇数值,SPSSAU默认为
5,如果说K值太大,容易出现‘过拟合’现象即结果看着很好但事实上不好;如果K值过小,容
易出现拟合现象很糟糕(欠拟合)现象。实际使用时,可考虑分别设置不同的K值,然后对模型
SPSSAU-在线SPSS分析软件
的优劣进行汇总和对比。
关于归类问题,上述比如K=5,挨的最近5个点中有3个(超过一半)为A类,那么该点
就分为A类,此种分类方式为‘等比投票权’,即5个点的权重完全一致。但我们知道,挨的最近
的5个点,其实都能计算出距离值,是否可根据距离值大小来加权判断呢?比如使用距离值的倒
数,即1/距离值作为权重,如果距离值越大,权重就越小,并且综合计算来评估类别划分,此种
方式叫‘距离反比投票权法’。关
您可能关注的文档
最近下载
- 标准图集-04S531-4 湿陷性黄土地区给水阀门井.pdf VIP
- 人教版2025-2026学年九年级物理上册教学计划(及进度表).docx
- 保卫延安节选课件.pptx VIP
- 钢支撑安装及拆除安全专项施工方案.doc VIP
- 预防校园欺凌主题班会课件.pptx VIP
- 四川省遂宁市2021届九年级期末数学试卷及答案.pdf VIP
- JTT 1507-2024公路工程施工安全标志设置规范.docx
- 第1-11课+总复习课件【知识精讲精研】高中日语华东理工版新编日语教程1.pptx VIP
- 慢性咳嗽的临床思维课件.ppt VIP
- 高中政治必修四第一课 时代精神的精华(原卷版).docx VIP
文档评论(0)