基于类别的CHI特征选择方法.pdfVIP

  • 17
  • 0
  • 约1.38万字
  • 约 5页
  • 2016-02-02 发布于天津
  • 举报
基于类别的CHI特征选择方法.pdf

安徽广播电视大学学报 2015年第3期 基于类别的CHI特征选择方法 梁伍七, 李 斌, 许 磊 (安徽广播 电视大学 信息与工程学院,合肥 230022) 摘 要:文本分类问题中,卡方特征选择是一种效果较好的特征选择方法。计算单词的卡方值时,先计算单 词针对每个类别的卡方值,再通过类别概率将卡方值调和平均,作为单词相对于整个训练集合的卡 方值,这种全局方法忽视了单词和类别间的相关性。针对这一问题,提出基于类别的卡方特征选择 方法。基于类别的方法针对每个类别遴选特征词,特征词数量根据事先设定的阈值、类别的文档数 和整个训练集合文档数计算得到,不同类别的特征空间可能包含相同的特征词。采用 KNN分类方 法,将基于类别的方法与全局方法进行比较 ,实验结果表明,基于类别的方法能够提高分类器的总体 性能。 关键词 :文本分类;卡方;特征选择;特征词 ;KNN分类 中图分类号 :TP391 文献标识码:A 文章编

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档