文本分类中信息增益算法改进.docVIP

下载本文档

1
0
约4.17千字
约 8页
2017-11-26 发布于福建
举报
版权申诉

文本分类中信息增益算法改进.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

文本分类中信息增益算法改进

文本分类中信息增益算法改进　　摘要：分析了信息增益方法的不足，并将类内离散度、类间离散度和权重协调因子应用到信息增益算法上，提出了一种改进的信息增益算法。实验表明，该方法在分类效果上与经典算法相比有一定的提高。关键词：特征选择；信息增益；类内离散度；类间离散度；权重协调因子中图分类号：TP312 文献标志码：A 文章编号：1006-8228（2013）09-45-02 0 引言信息科学技术和互联网技术每天都在更新，人们通过网络获得的信息资源越来越多，与此同时，就需要更多的人力和时间来整理网络里的各种信息，因此产生了文本分类技术。文本数据的特点就是高维性和稀疏性[1-2]。文本分类算法在分类的时间上，带来大量时间开销；特征过多又往往会出现“维数灾难”的问题，特征选择就此产生。常用的特征选择方法是：信息增益、互信息、χ2统计量、特征词频-文档频率等。很多人倾向于信息增益方法，因为它考虑了特征词条未发生的情况。实验证明这种贡献在多数情况下远远小于它带来的干扰。本文提出了一种新的特征选择方法，并通过实验证明了该方法能有效提高文本分类的精度。 1 信息增益特征选择方法信息增益（Information Gain）[3]在机器学习领域被广泛使用，在信息论中，样本属性的信息增益越大，其包含的信息量也越大。对分类系统来说，计算信息增益是针对一个一个的特征项而言的，它通过统计某一个特征项t在类别ci中出现与否的文档数来计算特征项t对类别ci的信息增益，定义为考虑出现前后的信息熵之差，定义如公式⑴： ⑴ 式⑴中，P（ci）表示ci类文档在语料中出现的概率，P（t）表示语料中包含t的文档的概率，P（ci|t）表示文档包含t时属于ci类文档的条件概率，表示语料中不包含特征词条t的文档概率，表示文档不包含特征词条t时属于ci类的条件概率，m表示文档类别数。显然，某个特征项的信息增益值越大，表示其贡献越大，对分类也越重要。因此，在进行特征选择时，通常选取信息增益值大的若干个单词构造文本的特征向量。信息增益的优点在于，它考虑了词条未发生的情况，即虽然某个单词不出现也又可能对判断文本类别有贡献。但是实验证明，这种贡献往往远远小于考虑单词不出现情况所带来的干扰。 2 信息增益特征选择算法的改进信息增益特征选择方法的不足之处是：忽视了类间、类内分布不平衡的问题[4]；对特征项出现的频率考虑不全面。近些年，不少学者都在改进信息增益算法，来减小它带来的干扰，如利用语义联系改进信息增益算法[5]；利用最大值与次大值之间的差作为最终的评价函数值[6]；把频度、集中度、分散度都考虑上的算法[7]；通过构造隶属度函数来改进[8]。本文引入类间集中度DIac（t）、类内分散度DIic（t）和权重协调因子ω来对原始的算法进行改进。 2.1 类间离散度一般情况下，如果一个特征项在一个类别中大量出现，而在其他类别中较少出现，那么这个特征项对于类别判定的贡献度应该是比较大的，这种特征项相对于类别的倾斜特性使用类间离散度来衡量，即权衡一个特征相对于所有预定类别的分布均衡程度，分布越不均衡，那么这个特征对于类别判定的贡献度越大。类间离散度用来描述特征在类间的分布情况，特征项的类间离散度计算如公式⑵：从公式⑵中可以看出，那些集中分布在个别类或者几个类别的特征项，其类间离散度的值比较大，这些特征项一般具有较强的类别区分能力，当特征词条t仅在一个类别中出现的时候，DIac取最大值1，此时的分类能力最强；当特征词条t在每个类别中都出现的时候，DIac取最小值0，其分类能力最弱。 2.2 类内离散度在衡量了特征相对于类别的均衡程度后，还应该考虑特征在一个类别内的分布情况。如果一个特征在一个类别内的某个文本中大量出现，而其他文本出现很少或不出现，那么这个特征对于文本的分类贡献较少；反之，则特征对于类别区分的贡献度是比较大的。对于类别内的特征分布情况，我们可以使用类内离散度来衡量，即权衡一个特征相对于一个类别的分布均匀程度，分布越均衡，那么这个特征对于类别判定的贡献程度越大。类内离散度描述了特征项在某个类中的分布情况，特征项t在类ci中的类内离散度计算如公式⑶： ⑶ 式⑶中，n代表ci类中的文档个数，fj（t）表示词条t在ci类的第j篇文档中的词频，表示词条t在类ci文档中的平均词频。其中的计算公式为：。类内离散度越小，说明该词条越集中分布在该类中，其区分类别的能力越强。由公式⑶可以看出，当特征向量t在本类别中所有文档中都出现的时候，DIic取最小值0，此时的分类能力最强，可见DIic的值与其分类能力是成反比的。 2.3 权重协调因子根据很多