基于聚类的KNN算法改进.docVIP

下载本文档

39
0
约4.66千字
约 9页
2018-10-26 发布于北京
举报
版权申诉

基于聚类的KNN算法改进.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

PAGE PAGE 1 基于聚类的KNN算法改进　　摘要：通过研究KNN算法，提出了一种利用训练集文本聚类结果改进KNN算法的方法，首先将训练集文本采用DBSCAN算法聚进行聚类，将训练集文本分为若干个簇，然后采用KNN算法对测试文档进行测试，最后用距离最近的n个簇中的若干训练集文本使用KNN算法对测试文本进行分类。实验表明，改进后的算法降低了计算量，提高了效率，同时对聚类结果有了一定的改进。　　关键词：KNN算法；DBSCAN算法；训练集　　中图分类号：TP391文献标识码：A 　　An improved KNN Algorithm Based on Clustering 　　FANDong-hui12,WANGZhi-he1,CHENJian-hua1,XUHu-yin1 　　（ 1、College of Mathematics and Information Science, Northwest Normal University, Lanzhou 730070, china 　　2、Zhumadian Vocational and Technical College henan 463000 ）　　Abstract: By studying the KNN algorithm, I proposed the method a training set of text clustering results using KNN algorithm to improve, first the training set using text DBSCAN algorithm to cluster together, the text is divided into a number of training set clusters, then using KNN algorithm test document for testing, and finally with the nearest cluster of n number of training set in the text text using KNN algorithm to classify the test. Experiments show that the improved algorithm reduces the amount of computation, improve efficiency, while a certain improvement of clustering results. 　　Keywords: feature selection; document frequency;word frequency 　　1、引言　　文本自动分类是指对未知类别的文档进行自动处理，判断它所属类别。随着各种形式的文本文档以指数级的速度增长，有效的信息检索、内容管理等应用变得愈加重要和困难。文本自动分类作为一个有效的解决办法，已成为一项具有实用价值的关键技术。现如今已有诸多分类技术和方法被提出来，例如KNN算法(K-Nearest Neighbour)1、贝叶斯网络（Bayes Network）2、支持向量机（SVM）3等。　　其中KNN算法简单、有效，计算时间和空间线性于训练集的规模被广泛采用。但由KNN算法具体步骤可以知道：KNN是非积极学习方法，基本上不学习；再者每个训练集样本需要与训练集中样本进行计算，计算量非常大；还有因为要与单个训练集样本进行计算，易受单个样本的影响4。针对其局限性，我们提出改进的KNN算法就是在训练集样本中先进行聚类，然后利用KNN算法计算测试集样本与训练集样本簇之间的距离，选用较近的n个簇，用这n个簇中的训练集样本和测试集样本再采用KNN算法来确定测试集样本的分类。　　2.1、传统的kNN算法　　对于测试集中每一个测试文本,都需要计算它与训练集中每个文本的距离,然后把距离排序找到离该测试文本最近的k个文本,根据测试文本与训练文本的距离来给该测试文档的候选类别按公式（1）评分。如果有属于同一个类别的,就将该类别中的文本的打分求和作为该类别的得分。最后,将得分排序，测试文本将被分配给得分最高的那个类别。　　（1）　　x是一个测试集文本，c是训练集的类别，d是距离x最近的k个文本之一；　　sim(x,d) 是文本x与文本d的相似度，这里指的是距离；　　I(d,c) 是表示d是否属于类c，如果属于类c则为1，否则为0。　　2.2、改进的IKNN算法　　首先对训练集文本进行聚类，采用DBSCAN算法　　算法过程如下：　　第一步：如果文本对象P