第26章信息检索和XML数据.pptVIP

  • 3
  • 0
  • 约9.46千字
  • 约 33页
  • 2017-08-15 发布于河南
  • 举报
第26章 信息检索(Information Retrieval IR) 26.2 信息检索介绍 布尔查询database AND(Microsoft OR IBM)用户制定一个由词和布尔操作符(and,or,not) 排序查询用户指定一个或多个词,并且查询的结果是一系列按照查询相关度排序的文档。 将满足布尔查询条件的文档进行排序是IR搜索引擎很重要的一个方面。 26.2.1 向量空间模型 向量空间模型将文档表示为词向量的方法。将一个文档表示为一个向量,其中每个词对应向量的一个入口,如果词j在文档i中出现k次,则文档i的文档向量在位置j上的值为k。 26.2.2 词的TF/IDF权重 (Term frequency/Inverse document frequency) 词频文档向量中某个词的值,或者文档中该词出现的次数。 ZipfianZipf发现一个词在一个有相当长度的文档中的等级序号(该词按出现次数排列的词表中的位置,称之为rank,r),与该词出现的次数(frequency,f)的乘积几乎是一个常数(constant,C) r*f=C。 26.2.2 词的TF/IDF权重 Zipfian(续) r*f=C说明,一个词的出现次数和它的等级序号成反比,出现次数越多,序号越小。出现次数最多的排第一,出现次数最少的排最后。它们的积是一常数。 关于r和f关系的论述被称为“Zipf’s

文档评论(0)

1亿VIP精品文档

相关文档