- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于改进 TFIDF 算法的文本分类研究郑 霖,徐德华( 同济大学经济与管理学院,上海
基于改进 TFIDF 算法的文本分类研究
郑 霖,徐德华
( 同济大学经济与管理学院,上海 200092)
摘要:由于文本分类在信息检索、邮件过滤、网页分类、个性化推荐等领域有着广泛的应用价值,所以自文本分类的概念
提出以来,受到了学者们的广泛关注。在文本分类的研究中,学者们运用了很多方法,其中 TFIDF 是文档特征权重计算 的最常用算法之一,但是传统的 TFID 算法忽略了特征项在类内和类间的分布,导致很多区分度不大的特征项被赋予了 较大的权重。针对传统 TFIDF 算法的不足,本文在 IDF 的计算过程中,用词条在类内与类间的文档占比来考虑词条在类 内与类间的分布。在实验中,用改进的权重算法表示文本向量,通过考察分类的效果,验证了改进算法的有效性。 关键词:TFIDF 算法; 特征选择; 文本分类
中图分类号:TP301. 6
文献标识码:A
doi: 10. 3969 / j. issn. 1006-2475. 2014. 09. 002
Research on Text Categorization Based on Improved TFIDF Algorithm
ZHENG Lin,XU De-hua
( School of Economics and Management,Tongji University,Shanghai 200092,China)
Abstract: Due to the broad application of text categorization in information retrieval,email filtering,Web page classification,
personalized recommendation and other fields,it raised extensive attention among scholars since the concept of text categorization was presented. In text classification research,scholars have adopted a lot of methods,and TFIDF was one of the most commonly used algorithms to calculate the weight of feature items. But the traditional TFIDF algorithm ignored the distribution of feature i- tems within classes and among classes,leading to high weight given to many items with little discrimination. In this paper,with the purpose of improving the traditional TFIDF algorithm,we modified the calculation method of IDF,adding some factors which reflected the distribution of feature items within classes and among classes. In the experiment,we applied the improved TFIDF al- gorithm into text categorization. By investigating the effect of text classification,the improving algorithm was verified valid. Key words: TFIDF algorithm; feature items selection; text categorization
和论坛帖子等。在文本分类的过程中,核心的部分就
是将文本表示成向量空间模型[1]( VSM: Vector Space Model)。在建立文本空间向量模型的过程中,首先是 对文本进行分词,将文本表示成向量形式,但是这样 产生的向量维数巨大,产生“维度灾难”。因此,在文 本分词结束后,首先进行特征选择和权重的计算,降 低文本向量的维数,形成一个低维的空间向量。
在建立空间向
您可能关注的文档
最近下载
- 第一单元《做学习的主人》大单元整体教学评一体化教学设计 2025道德与法治三年级上册.docx
- 入党志愿书空白表格_1831893502精品.doc VIP
- 三一汽车起重机STC1000C7-1_产品手册用户使用说明书技术参数图解图示电子版.pdf VIP
- 2025-2026学年高二物理上学期第一次月考卷(真题含答案解析).docx VIP
- 高中语文专题一沁园春长沙学案苏教版.doc VIP
- 《中国老年骨质疏松症诊疗指南(2024)》解读-.pptx VIP
- 门式钢架房屋技术规程2002.pdf
- 《2校园的树木我修剪》(教案)人民版劳动技术七年级上册.docx
- 报价单模板模板.docx VIP
- 意外事故调查表(标准范本).pdf VIP
文档评论(0)