文本分类中一种新的特征选择方法 - 山东大学学报(工学版).pdf

下载文档

8
0
约 5页
2017-09-02 发布于天津
举报
版权申诉
保障服务

文本分类中一种新的特征选择方法 - 山东大学学报(工学版).pdf

1、本文档共5页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

文本分类中一种新的特征选择方法 - 山东大学学报(工学版)

　第４０卷　第４期山　东　大　学　学　报　（工　学　版）２０１０年８月　　　　Ｖｏｌ．４０　Ｎｏ．４　　　　　ＪＯＵＲＮＡＬＯＦＳＨＡＮＤＯＮＧＵＮＩＶＥＲＳＩＴＹ（ＥＮＧＩＮＥＥＲＩＮＧＳＣＩＥＮＣＥ）Ａｕｇ．２０１０　　文章编号：１６７２３９６１（２０１０）０４０００８０４文本分类中一种新的特征选择方法王法波，许信顺（山东大学计算机科学与技术学院，山东济南２５０１０１）摘要：文本分类面临的一个主要问题就是如何降低文本巨大的特征维数，并且保持分类精度甚至提高分类精度。针对该问题，提出了一种基于信息论的特征再提取方法，旨在删除稀疏分布的特征、保留有利于分类的特征。使用该方法时配合特征选择方法，可进一步降低特征维数。实验结果表明，该方法能将特征维数降低到几百维，而且能提高分类器的性能。关键词：文本分类；特征选择；熵；互信息；信息增益；卡方统计中图分类号：ＴＰ３９１　　　文献标志码：ＡＡｎｅｗｆｅａｔｕｒｅｓｅｌｅｃｔｉｏｎｍｅｔｈｏｄｆｏｒｔｅｘｔｃａｔｅｇｏｒｉｚａｔｉｏｎＷＡＮＧＦａｂｏ，ＸＵＸｉｎｓｈｕｎ（ＳｃｈｏｏｌｏｆＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅａｎｄＴｅｃｈｎｏｌｏｇｙ，ＳｈａｎｄｏｎｇＵｎｉｖｅｒｓｉｔｙ，Ｊｉｎａｎ２５０１０１，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：Ｈｏｗｔｏｒｅｄｕｃｅｆｅａｔｕｒｅｄｉｍｅｎｓｉｏｎｗｈｉｌｅｍａｉｎｔａｉｎｉｎｇｃａｔｅｇｏｒｉｚａｔｉｏｎａｃｃｕｒａｃｙｉｓａｋｅｙｉｓｓｕｅｏｆｔｅｘｔｃａｔｅｇｏｒｉｚａ ｔｉｏｎ．Ａｎｅｗｍｅｔｈｏｄｂａｓｅｄｏｎｉｎｆｏｒｍａｔｉｏｎｔｈｅｏｒｙｗａｓｐｒｏｐｏｓｅｄｔｏｓｏｌｖｅｔｈｉｓｐｒｏｂｌｅｍ．Ｔｈｉｓａｐｐｒｏａｃｈａｉｍｓｔｏｅｌｉｍｉｎａｔｅｓｐａｒｓｅｌｙｄｉｓｔｒｉｂｕｔｅｄｆｅａｔｕｒｅｓａｎｄｆｉｎｄｆｅａｔｕｒｅｓｕｓｅｆｕｌｆｏｒｃａｔｅｇｏｒｉｚａｔｉｏｎ．Ｗｏｒｋｉｎｇｗｉｔｈｔｈｅｓｅｆｅａｔｕｒｅｒｅｄｕｃｔｉｏｎｍｅｔｈｏｄｓ，ｉｔｃｏｕｌｄｆｕｒｔｈｅｒｒｅｄｕｃｅｔｈｅｆｅａｔｕｒｅｄｉｍｅｎｓｉｏｎ．Ｔｈｅｐｅｒｆｏｒｍａｎｃｅｏｆｔｈｉｓｐｒｏｐｏｓｅｄｍｅｔｈｏｄｗａｓｔｅｓｔｅｄｏｎｂｅｎｃｈｍａｒｋｔｅｘｔｃｌａｓ ｓｉｆｉｃａｔｉｏｎｐｒｏｂｌｅｍｓ．Ｔｈｅｒｅｓｕｌｔｓｓｈｏｗｅｄｔｈａｔｉｔｃｏｕｌｄｎｏｔｏｎｌｙｒｅｄｕｃｅｔｈｅｆｅａｔｕｒｅｄｉｍｅｎｓｉｏｎｔｏｈｕｎｄｒｅｄｓｂｕｔａｌｓｏｉｍｐｒｏｖｅｔｈｅｐｅｒｆｏｒｍａｎｃｅ．Ｋｅｙｗｏｒｄｓ：ｔｅｘｔｃａｔｅｇｏｒｉｚａｔｉｏｎ；ｆｅａｔｕｒｅｓｅｌｅｃｔｉｏｎ；ｅｎｔｒｏｐｙ；ｍｕｔｕａｌｉｎｆｏｒｍａｔｉｏｎ；ｉｎｆｏｒｍａｔｉｏｎｇａｉｎ；ＣＨＩｓｑｕａｒｅｓｔａｔｉｓｔｉｃｓ集中选择一个特征子集来提高分类器的训练速度，０　引言提高分类精度。常用的特征选择方式有文档频率、信息增益、期望交叉熵、互信息和卡方统计，其中信　　随着网络的普及，网络上的信息量迅速的增加。息增益和卡方统计的效果较好［１］。特征抽取是从如何有效的处理和组织这些文本数据，成为当前研原始特征中抽象出新的特征，然后使用新的特征进［２］究的重要课题，而文本分类是其中的核心任务之一。行训练和分类。常用的方法有主成分分析、特征