- 0
- 0
- 约1.4万字
- 约 6页
- 2026-02-27 发布于河南
- 举报
国科大2013年秋季《现代信息检索》第二次作业(第六章到第十五章)
以下1—16每题6分,第17题3分,共计100分。
1.习题6—10考虑图6—9中的3篇文档Doc1、Doc2、Doc3中几个词项的tf情况,采用图6—8中的
idf值来计算所有词项car、auto、insurance及best的tf-idf值.
Doc1Doc2Doc3
car27424
auto3330
insurance03329
best14017
图6-9习题6—10中所使用的tf值
car在三篇文档中的tf—idf值分别:Doc1:27*1.65=44.55;Doc2:4*1.65=6.6;Doc3:24*1.65=39。6
auto在三篇文档中的tf-idf值分别为:Doc1:3*2.08=6。24;33*2。08=68。64;0*2。08=0
insurance在三篇文档中的tf—idf值分别为:Doc1:0*1。62=0;33*1.62=53。46;29*1.62=46。98
best在三篇文档中的tf—idf值分别为:Doc1:14*1。5=21;0*1。5=0;17*1.5=25。5
2.习题6—15回到习题6—10中的tf—idf权重计算,试计算采用欧氏归一化方式处理后的文档向量,
其中每个向量有4维,每维对应一个词项。
Doc1=(44.55,6.24,0,21),Len(Doc1)=49。6451对其长度归一化得到Doc1=(0。897,0。126,0,0.423)
Doc2=(6。6,68。64,53.46,0),Len(Doc2)=87。2524对其长度归一化得到Doc2=(0.076,0.787,0.613,
0)
Doc3=(39。6,0,46。98,25.5),Len(Doc3)=66。5247对其长度归一化得到Doc3=(0.595,0,0。706,0。
383)
3.习题6-19计算查询digitalcameras及文档digitalcamerasandvideocameras的向量空间相似度并
将结果填入表6-1的空列中。假定N=10000000,对查询及文档中的词项权重(wf对应的列)采用对数方法
计算,查询的权重计算采用idf,而文档归一化采用余弦相似度计算。将and看成是停用词。请在tf列中给
出词项的出现频率,并计算出最后的相似度结果.
表6—1习题6-19中的余弦相似度计算
查询文档
词q d
tfwfdfidfq=wf-idftfwfii
id=归一化的wf
i
digital111000033110。521。56
video0010000020
原创力文档

文档评论(0)