向量空间模型.pdfVIP

  1. 1、本文档共3页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
向量空间模型 向量空间模型 (Vector Space Model)[29], 简称 VSM,这是文本建模中常用的 模型之一。它的主要思想是将词语看成孤立的,互不相关的,也就是所谓的“词 袋” ; 这样就可以将文本转化为多维度的空间向量来表示,向量维度一般是词语, 可以用维度的权重来表示词语的某些特性。 有一篇很长的文章,我要用计算机提取它的关键词( Automatic Keyphrase extraction ),完全不加以人工干预,请问怎样才能正确做到? 这个问题涉及到数据挖掘、文本处理、信息检索等很多计算机前沿领域,但 是出乎意料的是,有一个非常简单的经典算法,可以给出令人相当满意的结果。 它简单到都不需要高等数学, 普通人只用 10 分钟就可以理解, 这就是我今天想要 介绍的 TF-IDF 算法。 让我们从一个实例开始讲起。假定现在有一篇长文《中国的蜜蜂养殖》,我 们准备用计算机提取它的关键词。 一个容易想到的思路,就是找到出现次数最多的词。如果某个词很重要,它 应该在这篇文章中多次出现。于是,我们进行 词频 (Term Frequency ,缩写为 TF)统计。 结果你肯定猜到了,出现次数最多的词是 的 、 是 、 在 这一类 最常用的词。它们叫做 停用词 (stop words ),表示对找到结果毫无帮助、必 须过滤掉的词。 假设我们把它们都过滤掉了,只考虑剩下的有实际意义的词。这样又会遇到 了另一个问题,我们可能发现 中国 、 蜜蜂 、 养殖 这三个词的出现次数一样 多。这是不是意味着,作为关键词,它们的重要性是一样的?显然不是这样。因 为 中国 是很常见的词,相对而言, 蜜蜂 和 养殖 不那么常见。如果这三个词 在一篇文章的出现次数一样多, 有理由认为, 蜜蜂 和 养殖 的重要程度要大于 中国 ,也就是说,在关键词排序上面, 蜜蜂 和 养殖 应该排在 中国 的前面。 所以,我们需要一个重要性调整系数,衡量一个词是不是常见词。如果某个词比 较少见,但是它在这篇文章中多次出现, 那么它很可能就反映了这篇文章的特性, 正是我们所需要的关键词。 用统计学语言表达,就是在词频的基础上,要对每个词分配一个 重要性 权 重。最常见的词( 的 、 是 、 在 )给予最小的权重,较常见的词( 中国 ) 给予较小的权重,较少见的词( 蜜蜂 、 养殖 )给予较大的权重。这个权重叫 做 逆文档频率 (Inverse Document Frequency ,缩写为 IDF),它的大小与一 个词的常见程度成反比。 知道了 词频 (TF)和 逆文档频率 (IDF)以后,将这两个值相乘,就得到 了一个词的 TF-IDF 值。某个词对文章的重要性越高,它的 TF-IDF 值就越大。所 以,排在最前面的几个词,就是这篇文章的关键词 下面就是这个算法的细节。 第一步,计算词频。 考虑到文章有长短之分,为了便于不同文章的比较,进行 词频 标准化 第二步,计算逆文档频率。 这时,需要一个语料库( corpus ),用来模拟语言的使用环境。 如果一个词越常见,那么分母就越大,逆文档频率就越小越接近 0 。分母之所以 要加 1,是为了避免分母为 0 (即所有文档都不包含该词)。 log 表示对得到的值 取对数。 第 三 步 , 计 算 TF-IDF 。 可以看到, TF-IDF 与一个词在文档中的出现次数成正比,与该词在整个语言中的 出现次数成反

文档评论(0)

kxg2020 + 关注
实名认证
文档贡献者

至若春和景明,波澜不惊,上下天光,一碧万顷,沙鸥翔集,锦鳞游泳,岸芷汀兰,郁郁青青。

1亿VIP精品文档

相关文档