使用KNN算法的文本分类.PDFVIP

  • 250
  • 0
  • 约1.51万字
  • 约 3页
  • 2019-08-18 发布于天津
  • 举报
使用KNN算法的文本分类.PDF

第31 卷 第8 期 计 算 机 工 程 2005 年4 月 Vol.31 8 Computer Engineering April 2005 人工智能及识别技术 文章编号 1000 3428(2005)08 0171 02 文献标识码 A 中图分类号 TP18 使用KNN算法的文本分类 1 2 2 张 宁 贾自艳 史忠植 1. 中国科技大学研究生院计算机学部, 北京 100039 2 . 中科院计算技术研究所智能信息处理重点实验室, 北京100080 摘 要 介绍了数据挖掘的一个分枝 文本自动分类的相关技术 在对数据进行预处理的基础上 实现了K 最近邻居分类算法 并结合 实验结果对数据预处理在文本分类中的重要性进行了讨论 关键词 数据挖掘 文本分类 KNN 算法 向量空间模型 Text Categorization with KNN Algorithm 1 2 2 ZHANG Ning , JIA Ziyan , SHI Zhongzhi 1. Computer Branch, Graduate School, University of Science and Technology of China, Beijing 100039; 2. Key Lab of Intelligent Information Processing, Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100080 Abstract This paper introduces a branch of data mining technology text categorization, and discusses some related key technologies of text categorization. Based on data preprocess, it implements one algorithm, K nearest neighbor algorithm. In the end, it utilizes the experiment results t o prove the importance of data preprocess for clarifying capability. Key words Data mining; Text categorization; KNN algorithm; VSM 20 世纪90 年代以来 Internet 以惊人的速度发展起来 则 以便于实现 Internet 数据挖掘的智能化 离开了文本知 它容纳了海量的各种类型的原始信息 如何在浩若烟海而又 识挖掘 智能化是不能实现的 最常用的文本知识挖掘方法 纷繁芜杂的文本中掌握最有效的信息始终是信息处理的一 是基于文档特征向量空间模型 Characteristic Vector Space 大目标 基于人工智能技术的文本分类系统能够依据文本的 Model CVSM 的 一般过程如图1 所示 语义将大量的文本自动分门别类 从而更好地帮助人们把握 文本信息 禁用词集 概念集 已分类文档库 1 文本分类简介 文本自动分类最初是应信息检索 IR 训练 理 处 预 概念 一般特征提取 集 减 征

文档评论(0)

1亿VIP精品文档

相关文档