基于词频信息改进IG特征选择算法在文本分类中应用研究.docVIP

下载本文档

29
0
约6.1千字
约 13页
2018-08-30 发布于福建
举报
版权申诉

基于词频信息改进IG特征选择算法在文本分类中应用研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于词频信息改进IG特征选择算法在文本分类中应用研究

基于词频信息改进IG特征选择算法在文本分类中应用研究　　摘要：IG算法是一种有效的特征选择算法，在文本分类研究领域中得到了广泛应用。本文针对IG算法的不足，提出了一种基于词频信息的改进方法，分别从类内词频信息、类内词频位置分布、类间词频信息等方面进行了改进。通过实验对改进的算法进行了测试，结果表明，改进的算法相对传统算法更有效。　　关键词：词频信息；IG算法；特征选择；文本分类　　中图分类号：TP391.1 文献标识码：A 　　Research on the Application of the IG Feature Selection Algorithm Based on Word 　　Frequency Information Improvement in Text Classification 　　NIU Yuxia 　　（Nantong Science and Technology Academy，Nantong 226007，China）　　Abstract：As an effective feature selection algorithm，the IG algorithm has been widely used in the field of text classification.Aiming at the shortcomings of the IG algorithm，this paper proposes an improved method based on word frequency information，which improves the intra-class frequency information，the intra-class word frequency location distribution and the inter-class word frequency information.Experiments are carried out to test the improved algorithm，and the results show that the improved algorithm is more effective in comparison with the traditional one. 　　Keywords：word frequency information；IG algorithm；feature selection；text classification 　　1 引言（Introduction）　　?S着信息技术的飞速发展，互联网信息资源呈爆炸式增长。面对海量信息，如何合理管理资源，使人们能够快速、准确地获取有效信息，已经成为IT行业的研究热点之一[1]。　　文本分类技术是文本信息处理的关键技术之一，能够很好地解决上述问题，在文本分类中，通常用向量空间模型来表示结构化文本，其中，文本特征的高维性和特征权值的稀疏性直接影响文本分类精度。因此，设计合理的特征降维方法可以提高文本自动分类的效率。特征选择模式是常用的文本特征降维方式。该模式计算复杂度低，容易理解。特征选择的主要方法有：文档频度（Document Frequency，DF）、互信息（Mutual Information，MI）、文本证据权（Weight of Evidence，WE）、统计量（Chi-square，CHI）、期望交叉熵（Expected Cross Entropy，ECE）、信息增益（Information Gain，IG）等。相关研究表明[2，3]，在信息类别分布均衡的情况下，信息增益优势明显，但在类偏斜条件下，信息增益的分类效果就会下降。就信息增益的不足，探索相应的改进方法，提高文本分类的性能，有重要的现实意义。　　2 信息增益文本特征选择算法（Information gain 　　text feature selection algorithm）　　信息增益（Information Gain，IG）的评估方法是以熵为理论基础的[4]。熵越大，表明体系分布不确定、混乱。设X是随机变量，它可能有n个取值，，…，，每个取值取到的概率分别为，，…，，则X的信息熵为：　　（1）　　当Y确定以后，则X的熵为　　（2）　　信息增益是熵的差值，表示在去掉变量的不确定性后得到的信息量，表示为：　　（3）　　IG是针对特征项而言的。设ω为特征项，C为文本类别，用ω在C类中是否出现所带来的信息量来确定ω对C的信息增益值，如式（4）所示。　　（4）　　其中，n表示总的文档类别数，表示在文档集合中属于类的文档