- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
文本分类中信息增益算法改进
文本分类中信息增益算法改进 摘 要: 分析了信息增益方法的不足,并将类内离散度、类间离散度和权重协调因子应用到信息增益算法上,提出了一种改进的信息增益算法。实验表明,该方法在分类效果上与经典算法相比有一定的提高。
关键词: 特征选择; 信息增益; 类内离散度; 类间离散度; 权重协调因子
中图分类号:TP312 文献标志码:A 文章编号:1006-8228(2013)09-45-02
0 引言
信息科学技术和互联网技术每天都在更新,人们通过网络获得的信息资源越来越多,与此同时,就需要更多的人力和时间来整理网络里的各种信息,因此产生了文本分类技术。文本数据的特点就是高维性和稀疏性[1-2]。文本分类算法在分类的时间上,带来大量时间开销;特征过多又往往会出现“维数灾难”的问题,特征选择就此产生。常用的特征选择方法是:信息增益、互信息、χ2统计量、特征词频-文档频率等。很多人倾向于信息增益方法,因为它考虑了特征词条未发生的情况。实验证明这种贡献在多数情况下远远小于它带来的干扰。本文提出了一种新的特征选择方法,并通过实验证明了该方法能有效提高文本分类的精度。
1 信息增益特征选择方法
信息增益(Information Gain)[3]在机器学习领域被广泛使用,在信息论中,样本属性的信息增益越大,其包含的信息量也越大。对分类系统来说,计算信息增益是针对一个一个的特征项而言的,它通过统计某一个特征项t在类别ci中出现与否的文档数来计算特征项t对类别ci的信息增益,定义为考虑出现前后的信息熵之差,定义如公式⑴:
⑴
式⑴中,P(ci)表示ci类文档在语料中出现的概率,P(t)表示语料中包含t的文档的概率,P(ci|t)表示文档包含t时属于ci类文档的条件概率,表示语料中不包含特征词条t的文档概率,表示文档不包含特征词条t时属于ci类的条件概率,m表示文档类别数。
显然,某个特征项的信息增益值越大,表示其贡献越大,对分类也越重要。因此,在进行特征选择时,通常选取信息增益值大的若干个单词构造文本的特征向量。信息增益的优点在于,它考虑了词条未发生的情况,即虽然某个单词不出现也又可能对判断文本类别有贡献。但是实验证明,这种贡献往往远远小于考虑单词不出现情况所带来的干扰。
2 信息增益特征选择算法的改进
信息增益特征选择方法的不足之处是:忽视了类间、类内分布不平衡的问题[4];对特征项出现的频率考虑不全面。近些年,不少学者都在改进信息增益算法,来减小它带来的干扰,如利用语义联系改进信息增益算法[5];利用最大值与次大值之间的差作为最终的评价函数值[6];把频度、集中度、分散度都考虑上的算法[7];通过构造隶属度函数来改进[8]。本文引入类间集中度DIac(t)、类内分散度DIic(t)和权重协调因子ω来对原始的算法进行改进。
2.1 类间离散度
一般情况下,如果一个特征项在一个类别中大量出现,而在其他类别中较少出现,那么这个特征项对于类别判定的贡献度应该是比较大的,这种特征项相对于类别的倾斜特性使用类间离散度来衡量,即权衡一个特征相对于所有预定类别的分布均衡程度,分布越不均衡,那么这个特征对于类别判定的贡献度越大。类间离散度用来描述特征在类间的分布情况,特征项的类间离散度计算如公式⑵:
从公式⑵中可以看出,那些集中分布在个别类或者几个类别的特征项,其类间离散度的值比较大,这些特征项一般具有较强的类别区分能力,当特征词条t仅在一个类别中出现的时候,DIac取最大值1,此时的分类能力最强;当特征词条t在每个类别中都出现的时候,DIac取最小值0,其分类能力最弱。
2.2 类内离散度
在衡量了特征相对于类别的均衡程度后,还应该考虑特征在一个类别内的分布情况。如果一个特征在一个类别内的某个文本中大量出现,而其他文本出现很少或不出现,那么这个特征对于文本的分类贡献较少;反之,则特征对于类别区分的贡献度是比较大的。对于类别内的特征分布情况,我们可以使用类内离散度来衡量,即权衡一个特征相对于一个类别的分布均匀程度,分布越均衡,那么这个特征对于类别判定的贡献程度越大。类内离散度描述了特征项在某个类中的分布情况,特征项t在类ci中的类内离散度计算如公式⑶:
⑶
式⑶中,n代表ci类中的文档个数,fj(t)表示词条t在ci类的第j篇文档中的词频,表示词条t在类ci文档中的平均词频。其中的计算公式为:。
类内离散度越小,说明该词条越集中分布在该类中,其区分类别的能力越强。由公式⑶可以看出,当特征向量t在本类别中所有文档中都出现的时候,DIic取最小值0,此时的分类能力最强,可见DIic的值与其分类能力是成反比的。
2.3 权重协调因子
根据很多
文档评论(0)