- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
第六章K近邻算法机器学习应用基础凌明胜常州信息职业技术学院
问题引入K近邻算法的工作原理K近邻算法的scikit-learn实现使用K近邻算法进行分类目录CONTENTS使用K近邻算法进行回归预测糖尿病预测010203040506
问题引入01
问题引入电影名称打斗镜头亲吻镜头电影类型战狼1005动作红海行动953动作碟中谍610531动作前任3259爱情春娇救志明360爱情泰坦尼克号1080爱情有一部新电影,叫做《速度与激情9》,我们也统计了一下打斗和亲吻镜头出现次数,这应该划分到爱情还是动作呢?相似度较高的样本,其距离也会比较近,反之,相似度较低的样本,其距离也会比较远。我们可以将该算法理解为“近朱者赤,近墨者黑”。
K近邻算法的工作原理02
对于《速度与激情9》,坐标为(x,y),我们只需要看下离它位置最近的都有哪些电影,这些电影中的大多数属于哪个分类(少数服从多数),那么它就属于哪个分类。k近邻,看它和哪个邻居挨得近,邻居是哪一类,它就是哪一类。
K近邻算法执行过程kNN执行过程大致分为以下3步:1)确定近邻的数量k与距离度量方法。2)从训练集中选择离待预测样本最近的k个样本。3)根据这k个样本的类别计算待预测样本的类别(分类)或者根据这k个样本的值计算待预测样本的值(回归)。在近邻算法中,k是最近邻居的数量。邻居数量是核心决定因素,k通常为奇数。为了找到最接近的相似点,我们首先计算样本点之间的距离,之后确定最近的k个样本,根据最近样本的类别(分类)或样本值(回归)确定待预测样本的类别或值。
影响K近邻算法结果的因素k值的个数如右图,数据属于两个不同的类别,分别用蓝色方框和红色三角表示,绿色圆圈则代表待分类的数据点,其类别由k近邻算法决定。可以看到,当k等于3时,离未知数据最近的三个点是两红一蓝,因此数据会被归类为红色三角。可是当k从3增加到5时,多出来的两个实例都是蓝色的,这无疑会导致分类结果发生逆转。由此可见,k取不同值,分类结果不同。对于一个给定包含N个样本的训练集,利用k近邻模型相当于先对N个样本组成的特征空间进行划分,而k值的选择决定了这个特征空间被划分成的子空间数量。
影响K近邻算法结果的因素2.距离度量方式如何衡量哪些点才是“近邻”的标准?两个样本点之间的距离代表了这两个样本之间的相似度。距离越大,差异性越大;距离越小,相似度越大。闵可夫斯基距离(Minkowskidistance):??欧式距离(Euclideandistance)?曼哈顿距离(Manhattandistance)?p=2p=1
影响K近邻算法结果的因素3.决策规则kNN在做回归和分类的主要区别在于最后做预测时的决策方式不同。kNN进行分类预测时,采用多数表决法,kNN进行回归预测时,采用平均值法。同时,可以选择是否加权,权重与距离成反比。分类预测规则多数表决法每个邻近样本的权重是一样的,最终预测的结果为出现类别最多的那个类。如左图,待预测样本被预测为圆加权多数表决法每个邻近样本的权重是不一样的,一般情况下采用权重和距离成反比的方式来计算,也就是说最终预测结果是出现权重最大的那个类别。如左图,圆到待预测样本的距离为3,正方形到待预测样本的距离为2,权重与距离成反比,所以正方形的权重比较大,待预测样本被预测为正方形。
影响K近邻算法结果的因素3.决策规则2)回归预测规则一般采用平均值法或者加权平均值法。图中的2和3表示邻近样本的目标属性值(标签值),此时没有类别,只有属性值。平均值法平均值法中每个邻近样本的权重是一样的,也就是说最终预测的结果为所有邻近样本的目标属性值的均值。如图6-4,均值为:(3+3+3+2+2)/5=2.6
影响K近邻算法结果的因素3.决策规则加权平均值法图中,双箭头线上的数表示到待预测样本的距离。在加权平均值法中,每个邻近样本的权重是不一样的,一般情况下采用权重和距离成反比的方式来计算,也就是说在计算均值的时候进行加权操作。如图6-5,权重分别为(各自距离反比占距离反比总和的比例)。???
K近邻算法的scikit-learn实现03
K近邻算法分类sklearn.neighbors.KNeighborsClassifier(n_neighbors=5,weights=uniform,algorithm=auto’,leaf_size=30,p=2,metric=minkowski,metric_params=None,n_jobs=1,**kwargs)1)主要参数:n_neighbors:一个整数,指定k?值。weights:一字符串或者可调用对象,指定投票权重策略。uniform:本结点的所有邻居结点的投票权重都相等。distance:本结点的所有邻居
您可能关注的文档
- 高教社2025机器学习应用基础教学课件Ch10-4-v.pptx
- 高教社2025机器学习应用基础教学课件Ch10-3-v.pptx
- 高教社2025机器学习应用基础教学课件Ch11 -3.pptx
- 高教社2025机器学习应用基础教学课件第九章 决策树.pptx
- 高教社2025机器学习应用基础教学课件Ch11 -4.pptx
- 高教社2025机器学习应用基础教学课件第八章 朴素贝叶斯.pptx
- 高教社2025机器学习应用基础教学课件Ch11 -2.pptx
- 高教社2025机器学习应用基础教学课件Ch11 -1.pptx
- 高教社2025机器学习应用基础教学课件第七章 支持向量机.pptx
- 高教社2025机器学习应用基础教学课件Ch10-6-v.pptx
文档评论(0)