基于聚类的KNN算法改进.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
PAGE PAGE 1 基于聚类的KNN算法改进   摘要:通过研究KNN算法,提出了一种利用训练集文本聚类结果改进KNN算法的方法,首先将训练集文本采用DBSCAN算法聚进行聚类,将训练集文本分为若干个簇,然后采用KNN算法对测试文档进行测试,最后用距离最近的n个簇中的若干训练集文本使用KNN算法对测试文本进行分类。实验表明,改进后的算法降低了计算量,提高了效率,同时对聚类结果有了一定的改进。   关键词:KNN算法;DBSCAN算法;训练集   中图分类号:TP391文献标识码:A   An improved KNN Algorithm Based on Clustering   FANDong-hui12,WANGZhi-he1,CHENJian-hua1,XUHu-yin1   ( 1、College of Mathematics and Information Science, Northwest Normal University, Lanzhou 730070, china   2、Zhumadian Vocational and Technical College henan 463000 )   Abstract: By studying the KNN algorithm, I proposed the method a training set of text clustering results using KNN algorithm to improve, first the training set using text DBSCAN algorithm to cluster together, the text is divided into a number of training set clusters, then using KNN algorithm test document for testing, and finally with the nearest cluster of n number of training set in the text text using KNN algorithm to classify the test. Experiments show that the improved algorithm reduces the amount of computation, improve efficiency, while a certain improvement of clustering results.   Keywords: feature selection; document frequency;word frequency   1、引言   文本自动分类是指对未知类别的文档进行自动处理,判断它所属类别。随着各种形式的文本文档以指数级的速度增长,有效的信息检索、内容管理等应用变得愈加重要和困难。文本自动分类作为一个有效的解决办法,已成为一项具有实用价值的关键技术。现如今已有诸多分类技术和方法被提出来,例如KNN算法(K-Nearest Neighbour)1、贝叶斯网络(Bayes Network)2、支持向量机(SVM)3等。   其中KNN算法简单、有效,计算时间和空间线性于训练集的规模被广泛采用。但由KNN算法具体步骤可以知道:KNN是非积极学习方法,基本上不学习;再者每个训练集样本需要与训练集中样本进行计算,计算量非常大;还有因为要与单个训练集样本进行计算,易受单个样本的影响4。针对其局限性,我们提出改进的KNN算法就是在训练集样本中先进行聚类,然后利用KNN算法计算测试集样本与训练集样本簇之间的距离,选用较近的n个簇,用这n个簇中的训练集样本和测试集样本再采用KNN算法来确定测试集样本的分类。   2.1、传统的kNN算法   对于测试集中每一个测试文本,都需要计算它与训练集中每个文本的距离,然后把距离排序找到离该测试文本最近的k个文本,根据测试文本与训练文本的距离来给该测试文档的候选类别按公式(1)评分。如果有属于同一个类别的,就将该类别中的文本的打分求和作为该类别的得分。最后,将得分排序,测试文本将被分配给得分最高的那个类别。    (1)   x是一个测试集文本,c是训练集的类别,d是距离x最近的k个文本之一;   sim(x,d) 是文本x与文本d的相似度,这里指的是距离;   I(d,c) 是表示d是否属于类c,如果属于类c则为1,否则为0。   2.2、改进的IKNN算法   首先对训练集文本进行聚类,采用DBSCAN算法   算法过程如下:   第一步:如果文本对象P

文档评论(0)

yingzhiguo + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:5243141323000000

1亿VIP精品文档

相关文档