- 1、本文档共9页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于朴素贝叶斯分类模型的文本特征选择研究.doc
基于朴素贝叶斯分类模型的文本特征选择研究
摘要:该文主要对文本自动分类的特征选择方法进行了讨论,分析了几种常见方法存在的缺陷,指出影响出文本特征选择的两个重要因素——特征项在类别内的文档频率和在类别间的分布差异,并以这两个因素为影响因子分别对TF-IDF和IG方法进行了改进。另外还介绍了朴素贝叶斯分类模型,并基于此模型对改进的特征选择方法的分类效果进行评估。实验结果表明,改进后的方法能够强化特征项在特定类别中的影响力,提高文本分类效果。
关键词:文本分类;特征选择
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2014)01-0133-05
1 概述
文本特征选择(Text Feature Selection)是文本自动分类过程(图1)中的重要环节。文本自动分类(Automatic Text Categorization)是指运用计算机技术,在预先定义的分类体系下,根据待分类文档内容,将其归属为一个或多个类别的处理过程。文本自动分类技术的研究始于20世纪50年代[2],至今出现了基于不同理论的多种分类模型[3],在这些模型中,用向量空间模型(VSM)来表示文档[5],比如,用T表示文档包含的词汇集合,用每个词及其在文本中的权重作为特征项,则可将一篇文档表示为向量d=(t1,t2,…tm)(ti∈T,1≤i≤m),然后根据文档向量和类别向量计算出相似度,从而确定文档所属类别。文本特征选择是从高维文本特征集合中筛选出一部分特征组成一个低维的向量空间的过程。那么为什么要进行特征选择,是不是维数越高分类效果就越好呢?事实并非如此。一篇文档往往包含数百乃至成千上万个词条 ,对于语料训练集来说,词条数目更是达到百万级甚至更多。高维的特征,不仅增加了机器学习的负担,提高分类的计算复杂度,而且,过高的特征维数反而有可能降低分类的准确性[6],形成“高维灾难”。这是因为在整个特征集合中,有很多词在各个类别的文档中出现的频率差别不明显甚至几乎一样,类别区分能力很弱。还有一些词只在极少数的文档中出现,也不能作为类别划分的参考。文本特征选择目标就是去除这些对区分类别没有作用的特征项。对文本进行降维处理,不仅可以提高分类的效果,而且能够有效降低分类过程的计算复杂度,大大节省了时间成本。从图1可以看出,特征选择是产生文本特征向量的前提,直接影响模型训练的质量和分类的效果。该文将分析目前特征选择方法存在的问题,讨论影响特征选择的因素,提出改进方法,并用朴素贝叶斯模型对其分类效果进行评估。
2 相关研究
2.1 特征选择方法
对于不同的分类算法,应采用不同的特征选择方法以达到较为理想的分类效果。用于文本分类的特征统计量有:特征频率(Term Frequency,简称TF)、文档频率(Document Frequency,DF)、信息增益、χ2统计量、互信息等等。下面介绍几种常用的特征选择方法,并讨论这些方法存在的缺陷。
2.1.1 TF、DF和TF-IDF
TF是特征t在文档集中出现的频率,计算方法是tf=t出现的次数÷文档集中总词数(含重复)。DF是包含特征t的文档的频率,计算方法是df=包含t的文档数÷总文档数。因为在不同类别的文档中相同特征项出现的频率是有差异的,如果t在某类别中出现的频率较高,那么其在这个类别中的DF一般也高,因此t可以作为文本的类别特征。但是,单纯使用TF或DF还不足以区分不同特征对文本类别的贡献,因为有可能相同特征在所有类别中出现的频率都很高,或者不同特征在某个类别中出现的频率相同却在另一个类别中出现的频率相差甚远,这两种情况都不能正确反应特征对文档类别的影响,因此有一种方法将TF与逆文档频率(Inverse Document Frequency,IDF)结合起来,称为TF-IDF方法,计算公式为
式中idf的计算方法为idf=log [Nn],N代表训练集文档总数,n代表出现特征t的文档数。idf反应的是特征项在训练集文档中的分布情况,它能够弱化在各类别中共同高频特征项的作用,同时强化只在少数类别中出现的相对低频的特征项的重要度。
2.1.2 信息增益(Information Gain,IG)
文本特征的信息增益是指一个特征所携带的分类信息量,常见公式为
其中,n是类别数,p(ci)是第i类出现的概率,若每类平均出现,则p(ci)=[1n]。
p(t)=包含词语t的文档数÷总文档数,p(t)=1-p([t])。
[p(ci|t)]即[t]出现时,[ci]出现的概率,等于类[ci]中包含t的文档数除以训练集中出现[t]的文档总数。
[p(ci|t)]即[t]不出现但属于[ci]的概率,等于类[ci]
文档评论(0)