TF-IDF原理及其在信息检索中应用.pdfVIP

  • 1
  • 0
  • 约9.98千字
  • 约 10页
  • 2026-05-15 发布于北京
  • 举报

1.TF-IDF

TF-IDF(TermFrequency-InverseDocumentFrequency,词频-逆文本频率)。

TF指词频,IDF指的是逆文本频率。TF-IDF是一种用于信息检索与数据挖掘

的常用加权技术,可以评估一个词在一个文件集或者一个语料库中对某个文件

的重要程度。一个在一篇文章中出现的次数越多,同时在所有文章中出现

的次数越少,越能够代表该文章的意思,这就是TF-IDF的含义。

词频(TermFrequency,TF)指的是一个给定的在该文件中出现的次数。

这个数字通常会被归一化(一般是词频除以文章总词数),来防止这个词偏向

内容较长文件。比如:同一个在长文件里可能会比短文件有更高的词频。

在某篇文章中词条w出现的次数

TF=

W该文章所有词条数目总和

逆向文本频率(InverseDocumentFrequency,IDF),主要思想是在语料库中

包含某个词条的文档越少,该词条IDF越大,说明这个词就有很强的类别区分

能力。通常某个

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档