基于类别分布的特征选择框架研究.pdfVIP

  • 6
  • 0
  • 约1.85万字
  • 约 10页
  • 2018-01-07 发布于广东
  • 举报
基于类别分布的特征选择框架★ 靖红芳1王斌1杨雅辉2 ’中国科学院计算技术研究所北京100190 2北京大学软件与微电子学院北京102600 E-mail:.]inghongfeng@ict.ac.cn 摘要:极高的特征维数使文本分类变得复杂和费时,为此非常需要有效的特征降维方法。目前已有很多种特 征选择方法,但据吾w】所知,没有一种独立的特征选择方法能够在非平衡语料上取得很好的效果。本文依据特 征在类别间的分布特点提出了基于类别分布的特征选择框架。该框架能够利用特征的分布信息选出具有较强区 分能力的特征,同时可以给类别灵活地分配权重,分配较大的权重给稀有类别则提高稀有类别的分类效果,所 以它适合于非平衡语料,也具有很好的扩展性。另外,文中解释说明了OCFS和基于类别分布差异的特征过滤 方法是该框架的特例。基于该框架文中给出了具体的特征选择方法,Retuers-21578语料及复旦大学语料等两个 CHl和OCFS。 非平衡语料上的实验表明,它们的宏平均

文档评论(0)

1亿VIP精品文档

相关文档