中文文本特征选择方法研究综述.docVIP

下载本文档

2
0
约5.38千字
约 8页
2019-04-17 发布于广东
举报
版权申诉

中文文本特征选择方法研究综述.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

中文文本特征选择方法研究综述徐泓洋杨国为青岛大学电子信息学院摘要：针对文木的分析研宄中，根据分析目标的不同可归纳为文木分类和情感分析两种类型，在某些情况下，情感分析也可以被看作是一种特殊的文本分类问题。文本分类的一火特征是过高的向量维数，因此特征降维是文本分类的一火核心问题，而特征选择是特征降维的核心技术之一。归纳总结了中文文本分类和情感分析中常见的特征选择方法，分析各种方法的原理，指出其优缺点，并总结近年来相应算法改进情况。关键词：文本分类;情感分析;将征选择; 收稿日期：2017.6.22 Review of Feature Selection in Chinese Text Analysis Abstract： This paper summarizes common feature selection methods in text classification and sentiment analysis of Chinese version, and analysis the principle of various methods, points out its advantages and disadvantages, and the improved algorithm in recent years arc conclude. Keyword： text categorization; sentiment analysis; feature selection; Received： 2017.6. 22 文本分类(Text Categorization)是指根据文本的内容将大量的文本归到一个或者多个类别的过程。情感分析(Sentiment Analysis)也称文本倾向性分析，一般分为情感极性分类和情感信息抽取两类。情感分析也可看作是一种特殊的文本分矣问题。向量空间模型(Vector Space Model, VSM)是目前文本分笑和情感分析中文本表示的主要方法，这种方法的基本思想是以向量来表示文本：(WH w2，…，WJ ,其中Wi为第i个特征项的权重，它的特点是文本向量的位数很高, 通常一个文木向量可以达到数万维的量级，过高的向量维数是文木分析的一大问题。特征降维是文本分析的核心技术之一，分为特征选择和特征抽取两种。特征选择指从一组特征中选择出一些最有效的特征以降低特征空间的维数的过程，其利用某种评价函数独立对每个原始特征项进行评估，然后将他们按评估值得高低顺序排序，从中选取若干个评估值最高的特征项。文本分类中常见的特征选择方法主要有文档频率、信息增益、互信息、CHT统计、期望交叉熵、文本证据权、几率比等。本文将详细介绍这几种方法的原理，总结相应算法改进研宄情况。 1常见特征选择方法文本特征选择方法的基本思想是对每一个特征计算某种统计度量值，然后设定一个阈值T，把度量值小于T的那些特征过滤掉，剩下的即为有效特征。 1.1文档频率文档频率(Document Frequency, DF),即训练集文档中拥有茶个特征的文档数量与总文档数的比值。文档频率可表示为：式中Ft为出现特征t的文档数，D为文档总数。DF函数是最简单的评价函数，其特点是计算量小。DF方法的理论假设是出现频率小的特征所含的信息量小，特征选择时偏重于高频词。 ns 1=1 信息增益(Information Gain, IG)表示得知特征x的信息而使得矣ci的信息的不确定性减少的程度。信息增益定义为:特征x对类别Ci的信息增益TG (X，Ci)，定义类(^的信息熵U (Ci)与特征x给定条件下的条件熵11 (cjx)之差，即：类向量的熵如下: H(c)=-S/p(c/)fogp(c/) 条件熵如下: H(clx) = Y yp(Xy )X/p(c//xy) logp^cJXj) 特征X与类别C的信息增益越大，说明特征X包含的与类别C有关的鉴别信息就越多。 1.3互信息互信息(Mutual Information, MI)是信息论中的概念，用于衡量两个变量之间的关联程度。某个特征x在某个类别Ci中出现的概率高，在其它类别中出现的概率低吋，特征x与类别x会有较高的互信息值。定义特征x与类别C|的互信息公式为MI (X，Ci): 1. 4 CHI统计方法 CHI统计(chi-square statistic, CHI)特征选择方法乂被称作开方拟合检验 (CHI-test)。CHI统计方法度量文木特征x和文档类别c之间的相关程度，特征对于类别c的卡方统计值越高，它与该类之间的额相关性就越大，携带的类别信息也就越多。如果x与c之间相互独立，那么文本特征x的C11I估计值为零。