- 6
- 0
- 约1.85万字
- 约 10页
- 2018-01-07 发布于广东
- 举报
基于类别分布的特征选择框架★
靖红芳1王斌1杨雅辉2
’中国科学院计算技术研究所北京100190
2北京大学软件与微电子学院北京102600
E-mail:.]inghongfeng@ict.ac.cn
摘要:极高的特征维数使文本分类变得复杂和费时,为此非常需要有效的特征降维方法。目前已有很多种特
征选择方法,但据吾w】所知,没有一种独立的特征选择方法能够在非平衡语料上取得很好的效果。本文依据特
征在类别间的分布特点提出了基于类别分布的特征选择框架。该框架能够利用特征的分布信息选出具有较强区
分能力的特征,同时可以给类别灵活地分配权重,分配较大的权重给稀有类别则提高稀有类别的分类效果,所
以它适合于非平衡语料,也具有很好的扩展性。另外,文中解释说明了OCFS和基于类别分布差异的特征过滤
方法是该框架的特例。基于该框架文中给出了具体的特征选择方法,Retuers-21578语料及复旦大学语料等两个
CHl和OCFS。
非平衡语料上的实验表明,它们的宏平均
原创力文档

文档评论(0)