文本分类中向量化时特征权重的量化研究.docxVIP

文本分类中向量化时特征权重的量化研究.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

文本分类中向量化时特征权重的量化研究

网络信息的快速增长使人们更难找到必要的信息。作为处理大数据的关键技术,文本分类可以在一定程度上解决信息快速增长带来的问题。向量空间模型VSM(vectorspacemodel)是目前文本分类中最常用的文本表示方法之一。VSM的基本思想是用词袋法表示文本,将每个特征词作为向量空间坐标系的一维,文本被形式化为多维向量空间中的一个向量,文本之间的相似度用两个向量间的夹角衡量。也就是说,这个模型把对文本内容的处理简化为向量空间中的向量运算,并且它以空间上的相似度来表达语义的相似度。当文档被表示为文档空间的向量时,就可以通过计算向量之间的相似性来度量文档间的相似性。

在向量空间模型中,将文本表示单元(特征词)转换为向量通常使用的权重计算方法是TF-IDF(termfrequency-inversedocumentfrequency)方法。在一定程度上,这个方法能有效地表示一个特征词在文本中区分文本属性的重要程度,但其理论依据存在不足。

20世纪90年代,国内外学者都开始关注TF-IDF在文本分类中的应用,并针对其缺陷,对其进行过改进。总的来说,国内外学者对文本分类中TF-IDF的改进方向多为TF的改进、数据集偏斜和类区分能力的改进。

从文档长度的角度出发,同一个特征词在长文档中往往比在短文档中出现的频数更大,这就往往会影响到分类的效果。比较有效的几种标准化方式是LogTF和使用特征词在文档中的频率代替特征词在文档中的频数等。

数据集关于类别的分布往往是偏斜(skewed)的,即不同类别的文档数可能存在数量级的差距,这将严重影响TF-IDF的权重计算结果。因为IDF在计算特征项权重时涉及到文档总数,而如果文档集中各类文档数目不均衡,IDF的效果就会受到影响。针对数据集偏斜,B.C.How和K.Narayanan提出了CTD(categorytermdescriptor),以此来减弱类别数据集偏斜带来的影响。

如果一个特征词在某个类频繁出现,而在其他类中却极少出现,这样的词应该是具有更高权重的,然而根据IDF定义,这样的词却极有可能被赋予较低的权重,这就是IDF的不足之处。针对该不足,国内外学者多从特征词在类内均匀和类间集中的分布出发对其进行改进,如台德艺等的TF-IIDF-DIC权重函数,沈志斌等的BOR-TFI-DF权重函数,张瑜等的WA-DI-SI算法,苏丹等的TF-LDF算法,DengZhihong等提出的代替IDF的CRF(categoryrelevancefactors)等。还有学者考虑以特征选择评估函数作为权重来修正特征词的权重,如赵小华等的TF-IDF-CHI算法,李原等的引入信息熵IG来改进TF-IDF算法等。

本文将同时考虑特征词的重要性(以特征选择评估函数来描述)和类内类间分布,并用较精简的函数来描述特征词的类内类间分布,从而使其更容易在实际中得到应用。然后,以此函数模型进行实际的文本分类实验,验证其可行性和有效性。

文本的向量化是文本分类的重要环节,向量化的好坏直接影响到分类效果。通常对文本进行向量化采用的方法是TF-IDF。

2.1tf-idf-ch的区分能力

对于某个特征词,长文档中的TF会比在短文档中大。为了避免这种影响,往往会对TF进行标准化处理。下面是比较常见的一种标准化处理过的传统TF-IDF公式:

其中,wik表示文档i中第k维的向量值,tfik表示文档i中第k个特征项的TF值,maxi{tfik}表示文档i中所有特征项中TF的最大值,N表示文本集的文档数,nk表示文本集中出现该特征项的文本数。

对TF进行对数处理也是比较常见的一种标准化方法:

传统的TF-IDF存在着以下不足:

IDF不能很好地反映特征词的分布情况,如图1所示:

正实例是指在特征词应属的类中包含该特征的文档数,负实例表示在其他类中包含该特征词的文档数。对“特征词1”、“特征词2”、“特征词3”而言,“特征词3”对于该类应该会比“特征词1”和“特征词2”更有区分性,而“特征词2”比“特征词1”有区分性。但从IDF的角度来说,区分能力按从强到弱排序依次是“特征词1”、“特征词2”、“特征词3”,其中“特征词2”与“特征词3”具有相同的区分性,见图1。

考虑到每个特征词对每个类的贡献不同,赵小华等应用TF-IDF-CHI来修正每个特征词的权重,重新调整了每个特征词对类区分的贡献程度。同样,张爱华等认为特征选择函数能够起到过滤噪音特征,增加分类效果鲁棒性的作用,对于有噪音特征的语料,这种过滤所带来的效果提高非常明显。但是TF-IDF-CHI直接乘以CHI虽然能突出每个特征词的重要性,但权重的大小分配并不合理,最大CHI和最小CHI的差距太大造成分类效果提高不明显,因此,为减小差距

文档评论(0)

182****8318 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档