特征词选择算法及其与分类算法之间的关系.ppt

特征词选择算法及其与分类算法之间的关系.ppt

* * * * * * * * * * 参考论文: Yiming Yang 1999年的论文 《A comparative Study on Feature Selection In Text Categorization 》 * * * * * * * * * * * * * * * * * * * * * * * * * * * DF、卡方、点对点互信息、信息增益法提取特征词对比(五) 我的实验结论: 评价一个特征词是否是好词,一个特征词集合是否选择的合理。主要看所选择的词是否具有类别标识性。所谓类别标识性有以下两点含有:1。Distinctive for categorization:也就是说,如果该词出现则可以以一个很大的概率将文章归为某类。2。该词在它所“标识”的类别中应该频繁出现。DF法选择的特征词满足第二个条件多一点;而点互信息法选择的特征词只满足第一个条件多一点;而IG法和卡方法在满足两个条件方面达到了均衡。所以 IG和卡方法性能差不多,优于DF法,DF优于点互信息法。(注:这是我个人的一点见地,如有偏颇的地方欢迎指正) 由此我们可以得出这样的结论: IG法,卡方法,虽然有抑制高频词噪声和低频词噪声的能力,但是归根结底,这两种方法是基于频率的经典统计推断,不能够有效抑制全部高频词噪声,如果要提高特征词集合抑制高频词噪声的能力,可能要求诸于贝叶斯统计推断。 评估分

文档评论(0)

1亿VIP精品文档

相关文档