- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
k-最近邻算法 计算每个训练实例到待分类实例之间的距离 找出和待分类实例距离最近的k个训练实例 找到的k个训练实例中哪个类别占的最多,待分类实例就属于哪个类别 k-最近邻算法 A(1,1) B(2,1) D(2,0) C(3,1) E(5,2) F(4,3) G(5,3) H(6,3) M(2,2) d(M, A) d(M, B) d(M, C) d(M, D) d(M, E) d(M, F) d(M, G) d(M, H) 取k=5,使用欧氏距离 M的k个近邻中, 蓝色有4个,黄色有1个, 因此M的分类结果为蓝色 从k个最近邻居中决定分类结果 方式1: 选出k个最近的邻居中的数量最多的类标号 方式2: k个最近邻居分别按距离计算权重,权重最大的类标号获胜。 权重可以采用 1 / (d2 + 1) 来计算,其中d为某个最近邻居到待分类实例的距离。 可采用其它权重计算方式,只要满足 到待分类实例的距离越近权重值越大, 到待分类实例的距离越远权重值越小即可 k-最近邻算法 A(1,1) B(2,1) D(2,0) C(3,1) E(5,2) F(4,3) G(5,3) H(6,3) M(2,2) d(M, A) d(M, B) d(M, C) d(M, D) d(M, E) d(M, F) d(M, G) d(M, H) 取k=5,使用欧氏距离 weight(蓝) = 1/3 + 1/2 + 1/3 + 1/5 = 1.367 weight(黄) = 1/6 = 0.167 k-最近邻算法 A(1,1) B(2,1) D(2,0) C(3,1) E(5,2) F(4,3) G(5,3) H(6,3) M(4,1) 取k=2,使用欧氏距离 d(M, A) d(M, B) d(M, C) d(M, D) d(M, E) d(M, F) d(M, G) d(M, H) M要分类为蓝色还是黄色? 如果只有两个类别,选择k时应选择一个奇数 k值的选择 如果k过于小,那么将会对数据中存在的噪声过于敏感 如果k过大,邻居中可能包含其他类的点 一个经验的取值法则为k≤ ,q为训练实例的数目 k-最近邻算法 kNN是基于实例的学习算法,训练过程仅是保存训练数据 必须保存全部训练数据,如果训练数据集很大,必须使用大量的存储空间 在分类时必须对数据集中的每个数据计算距离值,实际使用时可能非常耗时 应用示例: 手写数字识别 将训练样本中的每张图划分 成5x5的网格,计算每个格子中 黑色像素所占比例,形成5x5维特征向量, 并以此训练分类算法 将待识别的图片按同样的方式 转换为5x5维特征向量, 然后应用分类算法 分类系统设计的基本步骤 传感器 特征提取 特征选择 分类器设计 系统评估 模式 总结 分类:将待分类实例划分到合适的类别中 数值预测:预测数值属性,没有“类标号” 知识的表达:线性模型、决策树、规则、基于实例的表达 基于距离的分类:kNN算法 谢谢! 数据挖掘 王成 华侨大学计算机科学与技术学院 /ml/datasets.html这上面的聚类数据45种,分类数据240种 /v_july_v/article/details/6142146 数据挖掘领域十大经典算法 /v_july_v/article/details/7577684 主要内容 分类和预测 知识的表达 基于距离的分类 聚类 聚类(Clustering) 解决的是事物分组的问题,目的是将类似的事物放在一起 聚类算法 (k-Means, DBSCAN...) 分类 分类(Classification)是解决“这是什么?”的问题,分类所承担的角色就如同回答小孩子的问题“这是一只船”,“这是一棵树”等。 把每个数据点分配到合适的类别中,即所谓的“分类” 分类 算法 邮件 正常邮件 垃圾邮件 例如,邮件系统接收到一封陌生邮件时,算法能识别出该邮件是否垃圾邮件。聚类能将一堆邮件分成两组,但不知道哪组是垃圾邮件 数值预测 数值预测(numeric prediction)是预测一个连续值或有序值,而不是类标号 例如预测某同学在期末考试中的成绩为95分,95是一个数值,而不是“树”、“船”这样的类标号 分类和数值预测是“预测问题”的两种主要类型,简单起见,在不产生混淆时,使用较短术语“预测”表示“数值预测” 相关应用 垃圾邮件识别 信用卡用户分级,低风险优质客户给予较高的额度 手写字体识别、语音输入、图像识别 ... 相关应用 9月26日,石家庄市建华大街和裕华路交叉口西南角的行人闯红灯自动识别抓拍系统开始试用。 如果行人指示信号灯为红灯时,仍有行人在斑马线上过马路,这套系统会自动将其中一个人的图像拍摄下来并形成照片。 分类的两个步骤 训练模
文档评论(0)