一种基于最短距离聚类的K最近邻分类算法.pdfVIP

一种基于最短距离聚类的K最近邻分类算法.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种基于最短距离聚类的K最近邻分类算法.pdf

第 31卷 第 l2期 新 乡学 院学报 2014年 12月 Vo1.31 No.12 JournalofXinxiangUniversity Dec.2Ol4 一 种基于最短距离聚类的K最近邻分类算法 陈江丽 ,张 嵘 (临沧师范高等专科学校 信息科学与技术系,云南 临沧 677000) 摘 要 :针对传统K 最近 邻 (KNN)分类法执行效率低 的问题 ,提 出一种 改进 的K 最近邻分类 法。先采 用最短距 离 聚类法分别对训练样本和测试样本进行聚类 ,生成一些小簇和孤立 点,再对小簇或孤立点使用改进 的 K最近邻方 法进行分类。改进后 的方法能极大地缩小分类样本 的规模 ,降低计算成本 ,提高分类效率。 关键词 :K 最近邻分类 ;训 练样本 ;测试样本 ;聚类 ;最短距 离 中图分类号 :TP311 文献标志码 :A 文章编号 2014)120029—05 0 引言 随着信息技术 的快速发展 ,数据挖掘作为一个 年轻而充满生机的领域应运而生。利用数据挖掘技 术可以有效地发现 隐藏在数据背后丰富的知识 ,这 已在市场分析 、金融投资、医疗卫生 、环境保护、产品 制造和科学研究等许多领域得到证实和应用 ,并获 得 了巨大的社会价值 ,其 中的数据分类技术更是具 有广泛 的实用价值 。数据分类技术离不开分类算法 △ 的支持,一个好 的算法能提高分类 的准确率和执行 §△ 速度 。K 最 近邻 分类法也 叫 KNN (K Nearest— △ △◆ △ Neighbor)分类法 ,它是数据挖掘领域 中经典的分类 方法之一 ,目前被广泛应用于文本分类中,具有较成 熟 的理论基础 。K 最近邻分类法主要依靠周 围有 限的邻近样本来判断类别 ,分类思想简单直观 ,易于 实现 ,分类准确度较高 。 1 提 出问题 假如训练样本 (如图 1的 5 和 s ,用 △表示) 和测试样本 (如图 1的 T,用◇表示 )分别用 个属 性描述 ,每个样本代表 ”维空间的一个点 ,则所有的 训练样本和测试样本都存放在 维空间中。若使用 传统 的K最近邻分类法对T进行分类,需要搜索 维空 间,计算 T与各个训练样本 (包括 S 和 S。等) 问的距离 ,通过距离度量并 比较学 习,找到与 r,最 近的K 个训练样本l1],并将其 中的公共类别作为 T 的类别 。传统方法虽能实现较高 的分类准确度 ,但 收稿 日期 :2014—07—12 基金项 目:云南省教育厅科学研 究基金项 目(2013C037);临沧师范高等专科学校科学研究基金项 目(LCSZI2013009) 作者简介 :陈江丽 (1984一),女 ,云南大理人 。讲师,硕士 ,研 究方向:数据仓库和数据挖掘 。 · 3O · 新 乡学院学报 如图 2所示 ,训练样 本 S 、S。距 离较近且类 别 G ,新行和新列上 的新距 离按 照 D 一 min{D , 相同,可将它们先聚成小簇 SC(图中黑色线 圆区 D如}进行计算 ,所得到的矩阵记为D(t+ 1)。 域),选取小簇 的中心 SM (图中●表示)作为簇的代 (5)将 t+ 1赋值给 t,返 回步骤 (3),直到D(£) 表点,待分类的测试样本 (图中◇表示)只需与代表 中所有元素均大于丁或所有样本聚为一簇时结束聚 点进行 比较时,就可省去与簇 中各训练样本 比较的 类 。 计算开销 。另外 ,对于测试样本而言,若 丁和其他 2.2 利用小簇和孤立点进行分类 的样本距离很近 ,也可先聚合成小簇 TC(图中灰色 在分类阶段 ,以样本预先聚类后生成的小簇和 线圆区域),从簇 中选取一个代表点 TM (图中。表 孤立点为单位进行。利用训练

文档评论(0)

月光般思恋 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档