中文文本分类中的文本表示因素比较.PDFVIP

  • 3
  • 0
  • 约3.06万字
  • 约 8页
  • 2019-03-13 发布于天津
  • 举报

中文文本分类中的文本表示因素比较.PDF

中文文本分类中的文本表示因素比较.PDF

第 卷第 期 中国科学院研究生院学报 26 3 Vol.26 No.3 年 月 2009 5 JournaloftheGraduateSchooloftheChineseAcademyofSciences May 2009  文章编号: ( ) 10021175200903040008 中文文本分类中的文本表示因素比较 , 12 2 2 张爱华 荆继武 向 继 (中国科学技术大学电子工程与信息科学系,合肥 ; 中国科学院研究生院信息安全国家重点实验室,北京 ) 1 230027 2 100049 ( 年 月 日收稿; 年 月 日收修改稿) 2008 10 13 2008 11 7 , , ZHANGAH JINGJW XIANGJ.ComparativestudyontextrepresentationschemesinChinesetextclassification.Journal , , (): oftheGraduateSchooloftheChineseAcademyofSciences2009263 400~407 摘 要 研究了中文文本分类中的文本表示方法,提出了对中文文本表示因素的分析框架,并 通过对 个数据集实验结果的分析,确定了各种文本表示因素对分类效果的影响 直接使用汉 3 . 字进行划分也可以获得较好的分类效果;简单的不使用很大词库的分词和使用大词库的分词, 以及复杂的分词对分类效果影响不大;仅使用 表示特征是否出现也可以获得比较好的分类 01 效果;采用综合了合理的向量取值(如使用合适的归一化算法)可以较大幅度地提高分类准确 率等 这些结论为后续的应用提供了指导原则 . . 关键词 中文文本分类,文本表示,向量化 中图分类号 TP31 1 引言 随着互联网的迅猛发展,互联网络上的海量文本数据变得难以为人们有效地利用 人们迫切地需要 . 能够有效组织和管理海量 数据的工具,基于机器学习的文本自动分类( ,以下简称 Web textcategorization )成为人们关注和研究的重点,是信息检索和文本挖掘的重要基础 的主要任务是根据一组预先给 TC .TC 定的分类标记的文本(即训练集),对未分类的文本,根据其内容判断其所属的分类 这就需要衡量待分 . 类与训练集文本的距离或相似性. 文本自动分类的过程大致可分为:文本的表示( )、分类方法(

文档评论(0)

1亿VIP精品文档

相关文档