Web文本分类中的几种阈值策略分析与比较.docVIP

  • 11
  • 0
  • 约3.84千字
  • 约 5页
  • 2017-02-09 发布于重庆
  • 举报

Web文本分类中的几种阈值策略分析与比较.doc

Web文本分类中的几种阈值策略分析与比较

Web文本分类中的几种阈值策略分析与比较 李子久 摘 要 本文主要针对中文网页,分析比较了文本分类中的关于类别阈值的几种策略,分别是: 位置截尾法(RCut)、比例截尾法(PCut)) (1) (2) 是类别数量,代表类别,是类别的先验概率,可以通过公式(2)计算得到。 PCut考虑到了全局的分类性能,主要以x为参数,它的值可以通过分类的准确程度来调整,这种确定方法类似于RCut中t值的确定方法。目前,一些分类器,如:贝叶斯、DTree、kNN和LLSF等方法采用了PCut阈值策略[3]。 2.3最优截尾法(SCut) SCut针对某一类别,计算所有测试文本与该类别的相似度。根据最优化该类别分类器的性能来调整相应的阈值,然后将确定的阈值应用到新的待分类文本上。RCut和PCut阈值策略是平均所有分类器的性能,采用t或x作为参数;而SCut只优化某一类别的性能,并不保证所有类别分类结果达到最优。SCut多被用于Ripper、FOIL、Winnow、EG、kNN、LLSF和Rocchio等分类算法[4]。 2.4改进型截尾法(RTCut) 文献[1]中提出了一种新的阈值策略,即改进型

文档评论(0)

1亿VIP精品文档

相关文档