- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第6讲机器学习.ppt
2003.12.18 机器学习-基于实例的学习 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏 第6讲 机器学习 K-近邻学习概述 不同于eager学习算法,K-近邻方法在训练阶段只是简单地把训练样例存储起来,把建模过程推迟到了要预测新实例的工作阶段。因此, K-近邻方法是一种典型的lazy学习算法。 k-近邻方法既可以用于目标函数值是离散的情况,也可以用于是连续的情况。离散的情况就是分类,连续的情况就是回归。 K-近邻方法的学习过程分两部:1)找到要预测新实例的K个邻居;2)根据这K个邻居来预测新实例的目标值。 k-近邻算法 k-近邻算法假定所有的实例对应于n维空间Rn中的点,任意的实例表示为一个特征向量a1(x), ..., an(x) 根据欧氏距离定义实例间的距离。两个实例xi和xj的距离d(xi,xj)定义为 伪代码(离散) 考虑离散目标函数f: Rn?V,V={v1,...,vs} 逼近离散值函数f: Rn?V的k-近邻算法 训练算法 将每个训练样例x,f(x)加入到列表training_examples 分类算法 给定一个要分类的查询实例xq 在training_examples中选出最靠近xq的k个实例,并用x1...xk表示 返回 其中 伪代码(连续) 逼近连续值目标函数f: Rn?R的k-近邻算法 训练算法 将每个训练样例x,f(x)加入到列表training_examples 分类算法 给定一个要分类的查询实例xq 在training_examples中选出最靠近xq的k个实例,并用x1...xk表示 返回 距离加权的k-近邻算法(离散) 对k-近邻算法的一个改进是对k个近邻的贡献加权,越近的距离赋予越大的权值,比如: 其中 为了处理查询点xq恰好匹配某个训练样例xi,从而导致d(xq,xi)2为0的情况,令这种情况下的 等于f(xi),如果有多个这样的训练样例,我们使用它们占多数的分类。 距离加权的k-近邻算法(连续) 对k-近邻算法的一个改进是对k个近邻的贡献加权,越近的距离赋予越大的权值,比如: 其中 为了处理查询点xq恰好匹配某个训练样例xi,从而导致d(xq,xi)2为0的情况,令这种情况下的 等于f(xi),如果有多个这样的训练样例,则用它们的平均值来预测。 对k-近邻算法的的说明 k-近邻算法的所有变体都只考虑k个近邻用以预测查询点,如果使用按距离加权,那么可以允许所有的训练样例影响对xq的预测,因为非常远的实例的影响很小。唯一不足之处:使得预测的速度变得更慢。 如果预测一个新实例时,考虑所有的训练样例,我们称为全局法;如果仅考虑靠近的训练样例,称为局部法。 k-近邻算法的优点 K-近邻算法不是在整个实例空间上一次性地预测目标函数值,而是针对每个待预测的新实例,建立不同的目标函数逼近,作出局部的和相异的预测 。这样做的好处是:有时目标函数很复杂,但具有不太复杂的局部逼近。 距离加权的k-近邻算法对训练数据中的噪声有很好的健壮性,通过取k个近邻的加权平均,可以消除孤立的噪声样例的影响。 k-近邻算法的不足 K-近邻方法的不足之处体现在:应用K-近邻算法来进行预测的时候,经常会遇到很多现实问题。 这些问题包括:维度灾害问题、近邻索引问题、近邻大小问题、 计算效率问题、归纳偏置问题。 维度灾害问题 k-近邻算法的一个实践问题:维度灾害 许多学习方法,比如决策树方法,选择部分属性作出判断,而k-近邻方法中实例间的距离是根据实例的所有属性计算的。 实例间距离会被大量的不相关属性所支配,可能导致相关属性的值很接近的实例相距很远。 解决维度灾害问题的常用方法:1)属性加权;2)属性选择。 近邻索引问题 k-近邻算法的所有计算几乎都花费在索引近邻问题上。因此,如何建立高效的索引是k-近邻算法的另外一个实践问题。 目前,已经开发了很多对存储的训练样例进行索引的方法,以便能高效地确定最近邻。如kd-tree把实例存储在树的叶结点内,邻近的实例存储在同一个或附近的节点内,通过测试新查询xq的选定属性,树的内部节点把查询xq排列到相关的叶结点。 近邻大小问题 k-近邻算法的预测结果与k的大小相关。同样的数据,K值不同可能导致不同的预测结果。 计算效率问题 k-近邻算法推迟所有的计算处理,直到接收到一个新的查询,所以处理每个新查询可能需要大量的计算。 归纳偏置问题 k-近邻算法
您可能关注的文档
- 第3章电路的暂态分析.ppt
- 第3章网络体系结构与协议.ppt
- 第3讲凸集、凸函数、凸规划.ppt
- 第3讲消费者行为分析.ppt
- 第3讲铁、铜及其化合物.ppt
- 第3课宋明理学.doc
- 第3课汉字的拆分与输入.ppt
- 第46课时电磁感应定律的综合应用.doc
- 第49届大型综合人才交流会暨湖北省高校第二届2008毕业生.doc
- 第4届中国高校精品优秀特色科技期刊奖.doc
- 人教版数学九年级上册《 二次函数》说课稿(共19张PPT).ppt
- 人教版八年级上册 12.2.2三角形全等的判定 “边角边”判定三角形全等 (共22张PPT).ppt
- 人教版初中数学2011课标版八年级上册第十二章12.2 三角形全等的判定 课件(共16张PPT).ppt
- 人教版九年级第十单元课题1浓硫酸1 (共18张PPT).ppt
- 人教版初中数学七年级上册 1.4 有理数的乘除法(共22张PPT).ppt
- 人教版八年级物理上册第1章 第2节运动的描述习题课件(共20张PPT).ppt
- 人教版九年级课题2酸和碱之间会发生什么反应(共21张PPT).ppt
- 人教版初中物理2011课标版 九年级 第十八章 电功率第三节 测量小灯泡的电功率(共25张PPT).pptx
- 人教版初中数学2011课标版九年级上册第二十四章24.1圆的有关性质(共17张PPT).ppt
- 人教版初中数学2011课标版九年级上册21.2解一元二次方程(共22张PPT).pptx
原创力文档


文档评论(0)