基于 KNN +层次 SVM 的文本自动分类技术.pdfVIP

  • 11
  • 0
  • 约 4页
  • 2017-04-01 发布于北京
  • 举报

基于 KNN +层次 SVM 的文本自动分类技术.pdf

基于 KNN +层次 SVM 的文本自动分类技术.pdf

第 33 卷第 2 期 计算机应用与软件 Vol.33 No.2 2016 年 2 月 Computer Applications and Software Feb.2016 基于 KNN+层次 SVM的文本自动分类技术 王金华1 喻 辉2 产 文3 周向东3 施伯乐3 1(中国电子科技集团公司第三十二研究所 上海 200233) 2(成都军区通信网络技术管理中心 四川 成都 610000) 3(复旦大学计算机学院 上海 200433) 收稿日期:2014 09 01。王金华,高工,主研领域:数据工程与信 息系统。喻辉,工程师。产文,博士。周向东,教授。施伯乐,教授。 摘 要 针对大规模文本的自动层次分类问题,K近邻(KNN)算法分类效率较高,但是对于处于类别边界的样本分类准确度不 是很高。而支持向量机(SVM)分类算法准确度比较高,但以前的多类 SVM算法很多基于多个独立二值分类器组成,训练过程比较 缓慢并且不适合层次类别结构等。提出一种融合 KNN 与层次 SVM的自动分类方法。首先对 KNN 算法进行改进以迅速得到 K个 最近邻的类别标签,以此对文档的候选类别进行有效筛选。然后使用一个统一学习的多类稀疏层次 SVM分类器对其进行自上而下 的类别划分,从而实现对文档的高效准确的分类过程。实验结果表明,该方法在单层和多层的分类数据集上的分类准确度比单独使 用其中任何一种要好,同时分类时间上也比较接近其中最快的单个分类器。 关键词 自动文本分类 KNN 层次 SVM 中图分类号 TP302.1 文献标识码 A DOI:10.3969/j.issn.1000 386x.2016.02.009 INTEGRATING KNN AND HIERARCHICAL SVM FOR AUTOMATIC TEXT CLASSIFICATION Wang Jinhua1 Yu Hui2 Chan Wen3 Zhou Xiangdong3 Shi Bole3 1(The 32nd Institution ofChina Electronics Technology Group Corporation,Shanghai 200233,China) 2(Network Management Center ofChengdu Military Area Command,Chengdu 610000,Sichuan,China) 3(School ofComputer Science,Fudan University,Shanghai 200433,China) Abstract For automatic hierarchical classification of large scale text,k nearest neighbours (KNN)algorithm has higher classification efficiency but is not effective for classifying the samples on the borders of categories.The support vector machine (SVM)classification algorithms have higher accuracy,however a number of previous multi class SVMalgorithms are composed of a number of independent binary classifiers,thus they become slower in training process and are not suitable for hierarchical category structures.This paper presents a new method which integrates both KNN and hierarchical SVM algorithm for automatic text classification.First we modify the KNN algorithm to quickly obtain K class labels of the nearest neighbours,and effectively sift out candidate categories of the documents with them.Then we use a multi class sparse hierarchical SVMclassifier with uniform learning to make top

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档