Web文本分类中几种阈值策略分析和比较.docVIP

  • 16
  • 0
  • 约1.61万字
  • 约 6页
  • 2017-08-08 发布于河南
  • 举报

Web文本分类中几种阈值策略分析和比较.doc

Web文本分类中几种阈值策略分析和比较

Web文本分类中的几种阈值策略分析与比较 李子久 摘 要 本文主要针对中文网页,分析比较了文本分类中的关于类别阈值的几种策略,分别是: 位置截尾法(RCut)、比例截尾法(PCut)、最优截尾法(SCut)以及改进型截尾法(RTCut),主要实验结果有: RTCut的效果最佳;PCut具有一定的复杂度,不适合在线文本处理;SCut具有一定的不稳定性;而Rcut性能最差, 并且使用英文文本和中文文本评测这几种阈值策略的结果是一致的。 关键词 文本分类 阈值 分类算法 特征选取 中图分类号 TP18 文献标识码 A 引言 随着web信息量的激增,人们需要自动的文本分类技术来实现对web信息资源的规划及利用。目前,文本分类是信息检索和数据挖掘领域的热门话题,它通过训练一定的文本集合得到类别与未知文本的映射规则,即计算出文本与类别的相关度,再采取一定的阈值策略决定文本的类别归属。不同的分类算法以及阈值策略都会对分类的结果产生一定的影响。但是,目前文本分类的研究热点主要集中在KNN、贝叶斯、支持向量机等分类算法上,人们往往忽视了分类中阈值策略的重要性。阈值的确定是文本分类中的一个重要的步骤,文献[1]提出了4种阈值策略:位置截尾法(RCut)、比例截尾法(PCut)、最优截尾法(SCut)以及改进型截尾法(RTCut),并且针对英文文本比较了

文档评论(0)

1亿VIP精品文档

相关文档