- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
改进TFIDF中文本特征词加权算法研究
改进TFIDF中文本特征词加权算法研究
摘要摘要:在自动文本分类中,TFIDF算法是最为常用的特征权重计算方法。该算法运用广泛,但是存在不足:只考虑了特征词的频率和包含特征词的文档数量,没有考虑到特征词在类内和类间对权重的影响。对特征词权重计算方法进行了改进。为了解决特征词在类内均匀分布以及在类间的比重问题,提出了修正函数TFDFIDFO。实验比较发现,新的特征词权重算法能够更加精确地反映出特征词的分布情况,该算法与传统的TFIDF算法相比,在召回率、查准率和宏平均值上都有较大的提升。
关键词关键词:文本分类;TFIDF算法;特征词权重;特征词分布;宏平均值
DOIDOI:10.11907/rjdk.151008
中图分类号:TP312
文献标识码:A文章编号文章编号2015)004006703
1概述
信息时代,每天都会产生大量数据,这些数据大部分以文本形式存储。微博留言、网上购物、网络聊天、电子邮件等产生的数据已经迈向PB级别,这些数据已经远远超过了人工分析的能力,人们得到有用信息的难度也日益增加,如何快速得到我们所需要的信息,文本分类与关键词提取可以有效解决这一难题。
文本分类所面临的困难主要有3个方面:①如何选择适当的数据集结构来表示文本;②每个文本进行分词后的特征词数量庞大,必须对高维的特征空间进行降维,以提高分类效率;③不同的权重计算方法会影响文档分类结果,要选择适当的分类算法,得到较为精确的分类结果。
不同的特征词在每个类别中的重要程度不一样,对于能够表示文本特征的词语常常会按照某个方法赋予相应的权重,以区分特征词对某一类的重要程度。
常用的文本特征评估方法主要有以下几种:TFIDF算法、互信息、信息增益、K最近邻算法等等。文本特征词权重计算运用最广泛的算法是TFIDF算法。TFIDF算法最早用于信息检索领域,在实际运用中,TFIDF算法存在很多缺陷,因此很多人提出了改进算法。如台德艺[1]的TFIIDFDIC权重算法、王小林[2]提出的TFIWF算法等,这些改进算法降低了语料库中同类型文本对特征词权重的影响。本文考虑文本特征词在类内与类间的分布情况,用简单的函数来表示特征词在类内均匀分布情况以及类间的比重情况,使计算变得更加简洁,并通过实验来证明改进后算法的可行性与准确性。
2传统的TFIDF算法
2.1传统TFIDF算法简介
TFIDF(Term frequencyInverse document frequency)是一种统计方法,用来评估特征词的重要程度。根据TFIDF公式,特征词的权重与在语料库中出现的频率有关,也与在文档里出现的频率有关。传统的TFIDF公式如下:
if-iwf=ni,j∑knk,j×log|D||{j∶ti∈dj}|(1)
传统的TFIDF算法在对特征词权重进行计算时没有考虑其分布情况[3],如图1所示。
假设在一个类别中有两个特征词,系列1代表属于该类中包含该特征词的文档数目,系列2代表不属于该类但是包含该特征词的文档数目。假设两个特征词的TF值相同,那么,根据IDF计算的特征词权重相同,但是从图1很明显看出特征词2比特征词1的区别能力更强一些,而传统的TFIDF算法根本体现不出来。
2.2TFIWF算法
TFIWF算法是王小林等在《改进的TFIDF关键词提取方法》一文中提出的,主要思想是采用词语逆频率方式来计算特征词权重,具体计算公式如下:
TF-IWFi,j=ni,j∑knk,j×log∑mi=1ntinti(2)
IWF的含义是对语料库词语总数与待查文本中该词在语料库中出现的次数比求对数。这种加权方法降低了语料库中同类型文本对词语权重的影响,更加精确地表达了这个特征词对文档的重要程度。
3改进的TFIDF算法――TFDFIDFO算法
(1)TFIDF没有考虑特征词在类间的分布情况。假设某一个特征词m,在某一类别中包含m特征词的文档数目为M,而在其它类别中包含的特征词m的文档数目为N,那么所有类别中包含特征词m的文档总数为M+N。 M越大,这个类中包含特征词m的文档也就越多。对于一个特征词,如果该词在一个类别中出现的次数越多,而在其它类别中出现的次数越少,那么这个特征词就越能区别这个类与其他类的不同,对此应该赋予较大的权重。但是,M值越大,根据IDF公式计算得到的值却越小,这是因为IDF算法是对于整个文档集而言,没有考虑到特征词在类间的分布情况。
(2)TFIDF没有考虑特征词在类内的分布情况。如果某个特征词在一个类别中所出现的文档数越多,那么这个词就越能代表该类别,也就是说均匀分布在类内的文档中,它对该类所作的贡献也就
您可能关注的文档
- 改良局部切除术治疗十二指肠乳头肿瘤临床价值.doc
- 改良岛状皮瓣在手部组织缺损与手指修复中临床应用.doc
- 改良尿道板纵切卷管法在治疗小儿尿道下裂中应用价值分析.doc
- 改良封闭负压辅助闭合技术联合干细胞移植治疗难愈合性伤口研究.doc
- 改良布朗氏架在股骨粗隆间骨折保守治疗中应用.doc
- 改良平片无张力疝修补术在腹股沟疝中应用.doc
- 改良小切口白内障摘除及人工晶状体植入联合青光眼复合小梁切除术临床疗效观察.doc
- 改良式B―Lynch缝合术在剖宫产产后出血治疗中应用价值.doc
- 改良式B―Lynch缝合术对剖宫产术中子宫收缩乏力性出血作用.doc
- 改良小夹板外固定治疗桡骨远端伸直型骨折效果探析.doc
最近下载
- 2025年幼儿园校舍安全排查自查报告范文.docx
- (GB6722-2023)爆破安全规程(四).docx VIP
- 人教新起点版六年级英语上册Unit-6-Winter-Vacation-整单元ppt课件.pptx VIP
- 盖梁双抱箍法施工工法.pdf VIP
- 金天钛业-市场前景及投资研究报告-材料强国,高端制造,高端钛合金,航空深海铸就高成长.pdf VIP
- 船舶监造培训课件.ppt VIP
- 第12课 纪念白求恩(提升训练)(教师版).docx VIP
- 职业卫生与职业医学知识点汇总.pdf VIP
- DG_TJ08-202-2020:钻孔灌注桩施工标准.pdf VIP
- 山东省济南一中《中外历史纲要(上)》全册知识点复习课件(.pptx VIP
原创力文档


文档评论(0)