中文文本分类中一种简单高效的特征词选择方法研究.pdfVIP

  • 9
  • 0
  • 约1.34万字
  • 约 5页
  • 2018-01-03 发布于广东
  • 举报

中文文本分类中一种简单高效的特征词选择方法研究.pdf

计算机研究与发展 ISSN1000.1239/CN11-1777/TP of Researchand JournalComputer Development 42(增刊):356~360,2005 中文文本分类中一种简单高效的特征词选择方法 谷 波 刘开瑛 (山西大学计算机与信息技术学院太原030006) edu.cn) (gubo@SXU and FeatureSelectionMethodinChineseText A Performance SimpleHigh Classification Gu130andLiu Kaiying (Schoolof 030006) Computer&InformationTechnology,ShanxiUniversity,Talyuan Withthe numberofdocumentsincreases Abstract oftheInternet.the rapiddevelopment rapidly.Text classificationisan text methodfor theusefulinformationand the importantmining finding making documents this and methodoffeatureselectionis organic.Inpaper,asimplehighperformance brought forwardforthetaskofChinesetextclassification.Themethodbuilds a listbased automaticallystop—words ontheinformationof distributioninvariousclassesandremovesthesewordsthat feature。words’probability are totheclassification.Inthe maximummodelandadecisiontree unimportant experiment,aentropy modelareusedtoconducta testforChinesetextclassification.Theresultshowsthatbothmodels’ isincreased. performances wordsfeature tree Key selection;textclassification;maximumentropy;decision 摘要随着互联网的飞速发展,网上文档的数量激增.文本分类是对这些文档进行有效组织和挖掘其 相关信息的一种重要的文本挖掘方法.针对中文文本分类的任务,提出了一种简单高效的特征词选择 方法.根据特征词在训练集中不同类别中的分布信息,自动构建一个文本分类停用词表,去除了对分类 任务作用很小的特征词.并利用上述特征词选择方法,使用决策树模型和最大熵模型进行了中文文本 分类实验.实验结果显示,两种算法在进行特征选择后准确率均有提高. 关键词特征选择;文本分类;最大熵;决策树 中图法分类号TP391 问题一直是重要的研究内容.通过文本自动分

文档评论(0)

1亿VIP精品文档

相关文档