- 1
- 0
- 约小于1千字
- 约 19页
- 2018-12-08 发布于天津
- 举报
实用信息检索课件-信息检索的模型教学幻灯片.ppt
信息检索的模型方法
1
4
5
6
7
四个文档向量Vector:向量。
D1(2,2,0,3,0,0,0)
D2(0,4,6,8,0,0,0)
D3(0,0,0,1,2,3,0)
D4(0,0,0,0,0,0,2)
8
在文档d中,词汇t的分量
D1(2,2,0,3,0,0,0)
?一个词对一篇文档来说,它的重要程度如何评判?
9
词t在文档d的重要性
类比:
一篮子水果。
词t:水果
文档d:篮子
词对文档的重要性
某类水果对篮子的
重要性
10
① 5个草莓
②1个草莓单价:1元
草莓 对 这个篮子
的重要性为:
5x1=5
只考虑个数合适吗?
草莓的价值怎么评判?
11
词t在d中出现的次数:水果的个数
词的单价:水果的单价
词频:term frequency tf
词的单价怎么计算?
物以稀为贵
词越稀有,词价格越高。
词蕴含的信息量越大。
词t对文档d的重要性?
12
给定信息x,如果它能命中1/2的文档
就说X 的信息量为 1
信息量
13
词的单价如何计算?
14
W=词频x词的单价
=词频x词的信息量
=词频x
词的权重就可以计算了
15
原始最终
16
Q:(1,2,0)
D1 (1,1,0)
D2 (3,1,0)
D3 (0,3,1)
举例-----如何计算:Q和D的相似度sim()
17
Sim(D,Q)=cosθ=
1.权重W=
18
2. 计算Q与各个D的夹角的余弦值。
3.按余弦值由大到小排序。
这个模型叫:VSM
向量空间模型 salton发明的
Vector Space Model
Lucene 一个实现了VSM的开源软件工具包
Java语言
.net 版本
搭建【文档、网页、资料】信息检索系统。
原创力文档

文档评论(0)