- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
面向文本分类基于最小冗余原则特征选取
面向文本分类基于最小冗余原则特征选取
摘 要:在文本分类中,为了降低计算复杂度,常用的特征选取方法(如IG)都假设特征之间条件独立。该假设将引入严重的特征冗余现象。为了降低特征子集的冗余度,本文提出了一种基于最小冗余原则(minimal RedundancyPrinciple,MRP)的特征选取方法。通过考虑不同特征之间的相关性,选择较小冗余度的特征子集。实验结果显示基于最小冗余原则方法能够改善特征选取的效果,提高文本分类的性能。
关键词:计算机应用;中文信息处理;条件独立性假设;最小冗余原则;特征选取;文本分类
中图分类号:TP391 文献标识码:A
1 引 言
文本分类是根据事先提供的训练数据,构造高性能分类器,实现对新文本的自动分类过程。目前已有很多机器学习技术被成功应用于文本自动分类过程,如朴素贝叶斯(naive Bayes)、最大熵(MaXimum Entropy)、K-Nearest-Neighbor等模型。
在文本分类中,原始的特征空间可能具有非常高的维数,造成数据稀疏问题非常严重。高维特征空间造成很多机器学习技术(如Bayesian BeliefNetwork,BBN)的计算复杂度难以承受,除非引入不同特征之间条件独立性假设(Conditional Independence Assumption,CIA)。目前文本分类中常用的特征选取方法都直接采用CIA假设,如信息增益(Information Gain,IG)、Chi统计(Chi-Statistics,CHI)、文档频率(Document Frequency,DF)等。也有一些特征选取方法没有直接采用CIA假设,如Sequential Forward Selection(SFS)和Wrapper。SFS和Wrapper方法虽然能够取得较好的特征选取效果,但由于没有直接采用CIA假设,造成计算复杂度非常高,只能适用于特征数较小的应用任务中(如10~30个特征)。在高维特征空间的文本分类应用任务中,SFS和Wrapper方法的计算代价是不可忍受的。基于CIA假设的特征选取方法(如IG)不但可以降低文本自动分类的计算代价,在某些情况下还可能提高分类的性能,主要原因在于特征选取方法可以通过去掉一些噪音特征、选择一个最好的特征子集实现降维目的。
目前文本分类中常用的特征选取方法都没有直接考虑特征相关性,也没有考虑特征子集的冗余性。它们直接利用了特征之间的CIA假设,单独对每个特征进行评价,根据评价值从大到小进行排序,选择排名靠前的特征构造最佳特征子集。为此,本文主要研究通过考虑计算不同特征之间的相关性,减少特征子集的冗余度。实验结果显示基于最小冗余原则(Minimal Redundancy Principle,MRP)方法能够改善特征选取的效果,进而提高文本分类的性能。
2 最小冗余原则的特征选取方法
为了降低计算复杂度,目前文本分类中常用的特征选取方法,都引入了CIA假设。然而在实际应用中,特征之间的CIA特性是难以满足的,因为不同特征之间存在相关性(Correlation)。例如,在Newsgroups语料上,采用IG方法进行特征选取,排名前10个的特征基本上可以被分为六组:C1={“God”,“Jesus”}、C2={“Windows”,“file”,“DOS”}、C3={“car”}、C4={“space”}、C5={“game”}和C6={“scsi”,“drive”}。其中,同一个组的特征对该组所体现的主题类别具有很强的分类能力,对其他主题类别的分类能力比较弱。从分类系统的设计角度看,以C1组为例,如果已经选择了“God”,最好不要马上选择“Jesus”,最好选择体现其他主题类别的特征,因为“God”和“Jesus”之间存在冗余(Redundancy)。同样对于C2组而言,虽然C2组中每个特征的IG评价值都很高,在前10个特征中占了30%的比例,但并不是最佳的选择,特征之间冗余度过高。
基于上述考虑,为了降低特征集合的冗余度,又可以保证较低的计算复杂度,本文提出了一种基于最小冗余原则(Minimal Redundancy Principle,MRP)的特征选取方法。
最小冗余原则(MRP)方法的基本思想是选择新特征的同时,通过考虑新特征与已经确定的特征之间的冗余度,选择满足最小冗余度原则和最大评价值原则的候选特征作为新特征。在实际应用中,最小冗余度原则与最大评价值原则存在一定程度的冲突,MRP方法本质上是寻求两者之间的一种均衡关系。为了实现最小冗余原则的特征选取方法,至少需要研究两个问题:1)如何计算不同特征之间的冗余度;2)如何在特征评价函数中考虑冗余度因素
原创力文档


文档评论(0)