一种基于方差的文本特征选择算法.doc

下载文档 降价啦

3
0
约1.13万字
约 4页
2018-04-25 发布于江西
举报
版权申诉
保障服务

一种基于方差的文本特征选择算法.doc

1、本文档共4页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

一种基于方差的文本特征选择算法

2012 年 6 月 June 2012 计算机工程 Computer Engineering 第 38 卷第 12 期 Vol.38 No.12 ·人工智能及识别技术· 文献标识码：A 文章编号：1000—3428(2012)12—0155—03 中图分类号：TP312 一种基于方差的文本特征选择算法袁轶，王新房 (西安理工大学自动化与信息工程学院，西安 710048) 摘要：中文文本分类中传统特征选择算法在低维情况下分类效果不佳。为此，提出一种结合方差思想的评估函数，选出具有较强类别信息的词条，在保证整体分类性能不下降的同时，提高稀有类别的分类精度。采用中心向量分类器，在 TanCorpV1.0 语料上进行实验，结果表明，该方法在低维空间优势明显，与常用的文档频率、信息增益等 9 种特征选择算法相比，宏平均值均有较大提高。关键词：文本分类；特征选择；方差；类别信息；宏平均 Text Feature Selection Algorithm Based on Variance YUAN Yi, WANG Xin-fang (School of Automation Information Engineering, Xi’an University of Technology, Xi’an 710048, China) 【Abstract】The effectiveness of traditional feature selection method is not good when feature dimension is low. A new method based on variance is proposed to solve this problem. This approach can select class information words in order to maintain categorization accuracy and improve the performance of rare classes. This paper gives a comparative analysis between the new method and other traditional feature selection methods such as Document Frequency(DF), Information Gain(IG), Mutual Information(MI), Chi-square Statistics(CHI), etc. Experiment takes Rocchio as the evaluation classifier. Experimental results on TanCorpV1.0 corpora show that the new feature selection Variance Feature Selection Method(VFSM) outperforms the traditional ones when using macro-averaged-measures F1. 【Key words】text categorization; feature selection; variance; class information; macro-averaged-measures DOI: 10.3969/j.issn.1000-3428.2012.12.046 1 概述文本分类是根据给定文本的内容，将其判别为事先确定的若干类别中某一类或某几类的过程。文本分类大致包括文本表示、特征选择、分类器、评价 4 个部分。目前，人们通常采用向量空间模型(Vector Space Model, VSM)来描述文本向量，即使少量的文档也可以提取出成千上万的特征，而许多分类器处理高维问题的能力有限，如何有效地提取代表性的文本特征、去除冗余特征项是文本分类技术提高分类精度需要解决的关键问题。文本的特征提取一般分为特征选择和特征抽取两大类，前者是从原有的特征中提取出少量具有代表性的特征，但特征的类型没有变化；后者是在原有特征基础上重构新的特征。虽然特征选择在语义表达方面不如特征抽取具有优势，但由于其计算复杂性低，非常适合大规模语料库的训练，因此在特征降维中得到广泛应用。特征选择算法的基本思想是构造一个评价函数，对特征集的每个特征进行评估。每个特征项都有一个评估值，然后按照评估值的大小进行降序排列，根据阈值或预定数目选取最具代表性的特征作为最终的文本表示。目前常用的特征选择方法有：文献[1]中的文