- 9
- 0
- 约1.34万字
- 约 5页
- 2018-01-03 发布于广东
- 举报
计算机研究与发展 ISSN1000.1239/CN11-1777/TP
of Researchand
JournalComputer Development 42(增刊):356~360,2005
中文文本分类中一种简单高效的特征词选择方法
谷 波 刘开瑛
(山西大学计算机与信息技术学院太原030006)
edu.cn)
(gubo@SXU
and FeatureSelectionMethodinChineseText
A Performance
SimpleHigh
Classification
Gu130andLiu
Kaiying
(Schoolof 030006)
Computer&InformationTechnology,ShanxiUniversity,Talyuan
Withthe numberofdocumentsincreases
Abstract oftheInternet.the
rapiddevelopment rapidly.Text
classificationisan text methodfor theusefulinformationand the
importantmining finding making
documents this and methodoffeatureselectionis
organic.Inpaper,asimplehighperformance brought
forwardforthetaskofChinesetextclassification.Themethodbuilds a listbased
automaticallystop—words
ontheinformationof distributioninvariousclassesandremovesthesewordsthat
feature。words’probability
are totheclassification.Inthe maximummodelandadecisiontree
unimportant experiment,aentropy
modelareusedtoconducta testforChinesetextclassification.Theresultshowsthatbothmodels’
isincreased.
performances
wordsfeature tree
Key selection;textclassification;maximumentropy;decision
摘要随着互联网的飞速发展,网上文档的数量激增.文本分类是对这些文档进行有效组织和挖掘其
相关信息的一种重要的文本挖掘方法.针对中文文本分类的任务,提出了一种简单高效的特征词选择
方法.根据特征词在训练集中不同类别中的分布信息,自动构建一个文本分类停用词表,去除了对分类
任务作用很小的特征词.并利用上述特征词选择方法,使用决策树模型和最大熵模型进行了中文文本
分类实验.实验结果显示,两种算法在进行特征选择后准确率均有提高.
关键词特征选择;文本分类;最大熵;决策树
中图法分类号TP391
问题一直是重要的研究内容.通过文本自动分
您可能关注的文档
最近下载
- 残疾人之家简介课件.pptx
- IPC-7525通用标准(钢网).PDF VIP
- 2025年深圳市创想三维科技股份有限公司招股说明书.pdf VIP
- 达人带货签约合同模板(3篇).docx
- 人教版二年级下册数学全册教学设计(配2026年春改版教材).docx
- 中华人民共和国大气污染防治法(2018修正)实施细则解读.pptx VIP
- 中原工学院《高等数学A》2025-2026学年期末考试试卷(A)卷.docx VIP
- 箱归一化的分析与应用.pdf VIP
- 2026年人教版二年级数学下册 1.5 解决问题(教案).docx VIP
- JTG-T J 21-2011公路桥梁承载能力检测评定规程_(高清-可复制)(高清-可复制).pdf VIP
原创力文档

文档评论(0)