实用信息检索课件-信息检索的模型教学幻灯片.pptVIP

  • 1
  • 0
  • 约小于1千字
  • 约 19页
  • 2018-12-08 发布于天津
  • 举报

实用信息检索课件-信息检索的模型教学幻灯片.ppt

实用信息检索课件-信息检索的模型教学幻灯片.ppt

信息检索的模型方法 1 4 5 6 7 四个文档向量Vector:向量。 D1(2,2,0,3,0,0,0) D2(0,4,6,8,0,0,0) D3(0,0,0,1,2,3,0) D4(0,0,0,0,0,0,2) 8 在文档d中,词汇t的分量 D1(2,2,0,3,0,0,0) ?一个词对一篇文档来说,它的重要程度如何评判? 9 词t在文档d的重要性 类比: 一篮子水果。 词t:水果 文档d:篮子 词对文档的重要性 某类水果对篮子的 重要性 10 ① 5个草莓 ②1个草莓单价:1元 草莓 对 这个篮子 的重要性为: 5x1=5 只考虑个数合适吗? 草莓的价值怎么评判? 11 词t在d中出现的次数:水果的个数 词的单价:水果的单价 词频:term frequency  tf 词的单价怎么计算? 物以稀为贵 词越稀有,词价格越高。 词蕴含的信息量越大。 词t对文档d的重要性? 12 给定信息x,如果它能命中1/2的文档 就说X 的信息量为 1 信息量 13 词的单价如何计算? 14 W=词频x词的单价 =词频x词的信息量 =词频x 词的权重就可以计算了 15 原始最终 16 Q:(1,2,0) D1 (1,1,0) D2 (3,1,0) D3 (0,3,1) 举例-----如何计算:Q和D的相似度sim() 17 Sim(D,Q)=cosθ= 1.权重W= 18 2. 计算Q与各个D的夹角的余弦值。 3.按余弦值由大到小排序。 这个模型叫:VSM 向量空间模型 salton发明的 Vector Space Model Lucene 一个实现了VSM的开源软件工具包 Java语言 .net 版本 搭建【文档、网页、资料】信息检索系统。

文档评论(0)

1亿VIP精品文档

相关文档