- 11
- 0
- 约 4页
- 2017-04-01 发布于北京
- 举报
基于 KNN +层次 SVM 的文本自动分类技术.pdf
第 33 卷第 2 期 计算机应用与软件 Vol.33 No.2
2016 年 2 月 Computer Applications and Software Feb.2016
基于 KNN+层次 SVM的文本自动分类技术
王金华1 喻 辉2 产 文3 周向东3 施伯乐3
1(中国电子科技集团公司第三十二研究所 上海 200233)
2(成都军区通信网络技术管理中心 四川 成都 610000)
3(复旦大学计算机学院 上海 200433)
收稿日期:2014 09 01。王金华,高工,主研领域:数据工程与信
息系统。喻辉,工程师。产文,博士。周向东,教授。施伯乐,教授。
摘 要 针对大规模文本的自动层次分类问题,K近邻(KNN)算法分类效率较高,但是对于处于类别边界的样本分类准确度不
是很高。而支持向量机(SVM)分类算法准确度比较高,但以前的多类 SVM算法很多基于多个独立二值分类器组成,训练过程比较
缓慢并且不适合层次类别结构等。提出一种融合 KNN 与层次 SVM的自动分类方法。首先对 KNN 算法进行改进以迅速得到 K个
最近邻的类别标签,以此对文档的候选类别进行有效筛选。然后使用一个统一学习的多类稀疏层次 SVM分类器对其进行自上而下
的类别划分,从而实现对文档的高效准确的分类过程。实验结果表明,该方法在单层和多层的分类数据集上的分类准确度比单独使
用其中任何一种要好,同时分类时间上也比较接近其中最快的单个分类器。
关键词 自动文本分类 KNN 层次 SVM
中图分类号 TP302.1 文献标识码 A DOI:10.3969/j.issn.1000 386x.2016.02.009
INTEGRATING KNN AND HIERARCHICAL SVM FOR AUTOMATIC
TEXT CLASSIFICATION
Wang Jinhua1 Yu Hui2 Chan Wen3 Zhou Xiangdong3 Shi Bole3
1(The 32nd Institution ofChina Electronics Technology Group Corporation,Shanghai 200233,China)
2(Network Management Center ofChengdu Military Area Command,Chengdu 610000,Sichuan,China)
3(School ofComputer Science,Fudan University,Shanghai 200433,China)
Abstract For automatic hierarchical classification of large scale text,k nearest neighbours (KNN)algorithm has higher classification
efficiency but is not effective for classifying the samples on the borders of categories.The support vector machine (SVM)classification
algorithms have higher accuracy,however a number of previous multi class SVMalgorithms are composed of a number of independent binary
classifiers,thus they become slower in training process and are not suitable for hierarchical category structures.This paper presents a new
method which integrates both KNN and hierarchical SVM algorithm for automatic text classification.First we modify the KNN algorithm to
quickly obtain K class labels of the nearest neighbours,and effectively sift out candidate categories of the documents with them.Then we use
a multi class sparse hierarchical SVMclassifier with uniform learning to make top
您可能关注的文档
- 2000-2012年山西省旅游业碳排放的时空差异.pdf
- C形状分析在函数和路径层次上的并行化.pdf
- GBT 22849《针织T恤衫》新旧标准差异浅析.pdf
- Hunt-HessⅢ~Ⅳ级动脉瘤性蛛网膜下腔出血患者血管介入栓塞与开颅夹闭手术后并发脑积水差异的比较及预后分析.pdf
- miRNA 在哮喘小鼠肺组织及肥大细胞中的表达差异.pdf
- MRI各序列上的信号特点差异在诊断类风湿性关节炎中的价值探讨.pdf
- OLCC与CUCC丛编编目差异分析.pdf
- WSN中层次型拓扑控制与网络资源配置联合设计方法.pdf
- “纵向四层次,横向四模块”的高职院校内部治理结构研究.pdf
- “要害”、“地气”与“理性的乐趣”--议论文写作教学中逻辑层次的导入与解构.pdf
- 广东省广州省实验中学教育集团2025-2026学年八年级上学期期中考试物理试题(解析版).docx
- 广东省广州大学附属中学2025-2026学年八年级上学期奥班期中物理试题(解析版).docx
- 广东省广州市第八十六中学2025-2026学年八年级上学期期中物理试题(含答案).docx
- 广东省广州市第八十九中学2025-2026学年八年级上学期期中考试物理试题(解析版).docx
- 广东省广州市第二中学2025-2026学年八年级上学期期中考试物理试题(含答案).docx
- 广东省广州市第八十六中学2025-2026学年八年级上学期期中物理试题(解析版).docx
- 广东省广州市第八十九中学2025-2026学年八年级上学期期中考试物理试题(含答案).docx
- 广东省广州市第二中学2025-2026学年八年级上学期期中考试物理试题(解析版).docx
- 2026《中国人寿上海分公司营销员培训体系优化研究》18000字.docx
- 《生物探究性实验教学》中小学教师资格模拟试题.docx
最近下载
- 医院医养结合功能区设计方案.docx
- 老年人防诈骗宣传案例分析报告.docx VIP
- 聚羧酸减水剂msds报告.docx
- 个人信用报告模板简版带水印可编辑2025年9月新版.pdf VIP
- QBNM-PS-0001—2019 汽车车身油漆涂层标准.pdf VIP
- 2025铁路旅客列车餐饮服务卫生规范.pdf VIP
- 奉节脐橙电子商务发展中存在的问题及对策研究.docx VIP
- 城中村改造建设项目可行性研究报告.docx VIP
- 2024党员围绕“学习贯彻党的创新理论、党性修养提高、联系服务群众、党员发挥先锋模范作用、铸牢中华民族共同体意识方面”5个方面组织生活会发言材料多篇.docx VIP
- 《养老之女性篇》课件.pptx VIP
原创力文档

文档评论(0)