中文信息学报中文文本分类中特征抽取方法的比较研究①.PDFVIP

  • 15
  • 0
  • 约1.88万字
  • 约 7页
  • 2017-09-23 发布于天津
  • 举报

中文信息学报中文文本分类中特征抽取方法的比较研究①.PDF

中文信息学报中文文本分类中特征抽取方法的比较研究①.PDF

中 文  信  息  学  报 第 18 卷 第 1 期   JOURNAL OF CHINESE INFORMATION PROCESSING Vol 18 No1 文章编号 :1003 - 0077 (2004) 0 1 - 0026 - 07 中文文本分类中特征抽取方法的比较研究① 1 ,2 2 2 代六玲 ,黄河燕 ,陈肇雄 ( 1 南京理工大学 计算机科学系 ,南京  2 10094 ; 2 中国科学院 计算机语言信息工程研究中心 ,北京  100083) 摘要 :本文比较研究了在中文文本分类中特征选取方法对分类效果的影响 。考察了文档频率 DF 、信息增 χ ( ) 益 I G、互信息 M I 、 2 分布 CHI 四种不同的特征选取方法 。采用支持向量机 SVM 和 KNN 两种不同的分类 ( 器以考察不同抽取方法的有效性 。实验结果表明 ,在英文文本分类中表现 良好的特征抽取方法 I G、M I 和 ) CHI 在不加修正的情况下并不适合中文文本分类 。文中从理论上分析了产生差异的原因 ,并分析了可能的 矫正方法包括采用超大规模训练语料和采用组合的特征抽取方法 。最后通过实验验证组合特征抽取方法的 有效性 。 关键词 :计算机应用 ; 中文信息处理 ;文本自动分类 ;特征抽取 ;支持向量机 ; KNN 中图分类号 : TP18    文献标识码 :A A Comparative Study on Feature Selection in Chinese Text Categorization DA I Liuling1 ,2 , HUAN G Heyan2 , CHEN Zhaoxiong2 ( 1Depart ment of Computer Science , NU ST , Nanjing 2 10094 ,China ; 2 Language Information Engineering , CAS , Beijing 100083 ,China) Abstract : This p ap er is a comp arative study of feature selection met hods in text categorization . Four met hods were ( ) ( ) ( ) 2 χ evaluated , including document frequency DF , information gain I G , mutual information M I and test (CHI) . A Support Vector Machine ( SVM) and a knearest neighbor ( KNN) were selected as t he evaluating cl

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档