关于文本分类中特征降维方式研究.pdfVIP

下载本文档

2
0
约1.12万字
约 6页
2015-09-15 发布于安徽
举报
版权申诉

关于文本分类中特征降维方式研究.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

关于文本分类中特征降维方式的研究伍建军，康耀红 (海南大学信息科学技术学院，海南海口570228) 摘要：文本分类的一个关键点就是如何对高维的特征集进行降维。而特征降维的常用方法就是特征选择、特征抽取等。首先介绍了几种常见的特征选择和特征抽取方法。并对这些特征降维方法的优缺点进行了分析．最后结台K-近邻分类算法对四种特征选择方法(文档频率、互信息、CHI统计法、相关系数法)进行了分类测试，同时通过测试分析．提出了一些改进的、可行的互信息评价函数，实验结果表明，采用这种方法，在同等训练语料的情况下，分类效果比基于传统的互信息评价函数的分类效果要好。关键词：文本分类：特征降维；特征选择：互信息： Researchaboutfeaturedimensionreductionin text categorization Ⅵ町Jian-jun．KANGYao-hang ofInformation (College Science＆Teehnolo蚤,,HainanUniversity,Hainan．Haikou570228．China) oftext toreduea dimensionofthe Abstract：Tle ishow the featurevectors，Featureselectionandfeature keypoint categorization high offeature extractionisthemai0methadsoffeaturereducdon．Thisintrodueasfivemethods selectionandfeatureextraction．Andthen PaDer k-nearest isselectedasthe classifierto the ofthefourfeatureselection neighbor evaluating compareperformance Document intext thetest new Frequency、MutualInformalion、Chi—square、co．elationcoeffieien0categorization．Fromresult,a improved methodofFSis effective presentedbasedoaMutualInformation，andisprovedtobebyexperiment． reduction：Featureselection：Mutualinformation； Key∞rds：textcategorization；Feature 1引言随着网络技术的高速发展，网络上的电子文档也迅速增长，如何有效地、更好地帮助用户查找、过滤、管理这些海量数据显得越来越重要，因此文本分类(基于文档内容，把一篇新文档分类到预定义好的类别中)在许多信息组织和管理领域中的应用越来越广泛。文本分类大致可以分为三个步骤：文本的向量模型表示、特征抽取、分类器训练。目前大多数使用向量空间模型对文本表示成为向量形式．而向量的属性则有可能涉及到中文中的所有词汇，其向量的维数是非常巨大的，同时考虑到一篇文章只不过包含极少数词语(比如，一篇文档只由几百个词语组成)，可知文档表示向量的稀疏性。这样高维的特征空间对文本分类的运算时间和空间复杂性是很不利的，因此在进行文本分类之前需要