- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
《信息检索导论》课后练习答案
王斌
最后更新日期 2013/9/28
第一章 布尔检索
习题1-1 [*] 画出下列文档集所对应的倒排索引(参考图1-3中的例子)。
文档 1 new home sales top forecasts
文档 2 home sales rise in july
文档 3 increase in home sales in july
文档 4 july new home sales rise
解答:
forecasts
-------
1
home
-------
1 ?
2 ?
3 ?
4
in
-------
2 ?
3
increase
-------
3
july
-------
2 ?
3 ?
4
new
-------
1 ?
4
rise
-------
2 ?
4
sales
-------
1 ?
2 ?
3 ?
4
top
-------
1
习题1-2 [*] 考虑如下几篇文档:
文档1 breakthrough drug for schizophrenia
文档2 new schizophrenia drug
文档3 new approach for treatment of schizophrenia
文档4 new hopes for schizophrenia patients
a. 画出文档集对应的词项—文档矩阵;
解答:
文档1
文档2
文档3
文档4
approach
0
0
1
0
breakthrough
1
0
0
0
drug
1
1
0
0
for
1
0
1
1
hopes
0
0
0
1
new
0
1
1
1
of
0
0
1
0
patients
0
0
0
1
schizophrenia
1
1
1
1
treatment
0
0
1
0
b. 画出该文档集的倒排索引(参考图 1-3中的例子)。
解答:参考a。
习题1-3 [*] 对于习题1-2中的文档集,如果给定如下查询,那么返回的结果是什么?
schizophrenia AND drug
解答:{文档1,文档2}
for AND NOT (drug OR approach)
解答:{文档4}
习题1-4 [*] 对于如下查询,能否仍然在O(x+y)次内完成?其中x和y分别是Brutus和Caesar所对应的倒排记录表长度。如果不能的话,那么我们能达到的时间复杂度是多少?
Brutus AND NOT Caesar
Brutus OR NOT Caesar
解答:
可以在O(x+y)次内完成。通过集合的减操作即可。具体做法参考习题1-11。
不能。不可以在O(x+y)次内完成。因为NOT Caesar的倒排记录表需要提取其他所有词项对应的倒排记录表。所以需要遍历几乎全体倒排记录表,于是时间复杂度即为所有倒排记录表的长度的和N,即O(N) 或者说O(x+N-y)。
习题1-5 [*] 将倒排记录表合并算法推广到任意布尔查询表达式,其时间复杂度是多少?比如,对于查询
(Brutus OR Caesar) AND NOT (Antony OR Cleopatra)
我们能在线性时间内完成合并吗?这里的线性是针对什么来说的?我们还能对此加以改进吗?
解答:时间复杂度为O(qN),其中q为表达式中词项的个数,N为所有倒排记录表长度之和。也就是说可以在词项个数q及所有倒排记录表长度N的线性时间内完成合并。由于任意布尔表达式处理算法复杂度的上界为O(N),所以上述复杂度无法进一步改进。
习题1-6 [**] 假定我们使用分配律来改写有关AND和OR的查询表达式。
12a. 通过分配律将习题1-5中的查询写成析取范式;
12
b. 改写之后的查询的处理过程比原始查询处理过程的效率高还是低?
c. 上述结果对任何查询通用还是依赖于文档集的内容和词本身?
解答:
a. 析取范式为:(Brutus And Not Anthony And Not Cleopatra) OR (Caesar AND NOT Anthony AND NOT Cleopatra)
b. 这里的析取范式处理比前面的合取范式更有效。这是因为这里先进行AND操作(括号内),得到的倒排记录表都不大,再进行OR操作效率就不会很低。而前面需要先进行OR操作,得到的中间倒排记录表会更大一些。
c. 上述结果不一定对,比如两个罕见词A和B构成的查询 (A OR B) AND NOT(HONG OR KONG),假设HONG KONG一起出现很频繁。此时合取方式可能处理起来更高效。如果在析取范式中仅有词项的非操作时,b中结
您可能关注的文档
最近下载
- 大作业:如何理解“作风建设永远在路上,永远没有休止符”?我们应如何加强作风建设?.docx VIP
- 教师实习心得:教育反思与教师实习心得:有效的教学离不开有效的反思合集.doc VIP
- 《中华人民共和国基本医疗卫生与健康促进法》全文.pdf VIP
- 代数式的值-新浙教版-七上数学.pptx VIP
- 浙教版初中数学八年级上册第二章《特殊三角形》单元测试卷(含答案解析)(困难).docx VIP
- 浙教版初中数学八年级上册第二章《特殊三角形》单元测试卷(含答案解析)(标准困难).docx VIP
- 村两委换届调研报告大全一.doc VIP
- 2024-2030年中国面食行业市场深度分析及前景趋势与投资研究报告.docx
- 《护士条例》落实情况监督检查表.docx VIP
- 中国宠物行业2025年宠物医疗市场发展趋势与挑战分析报告.docx
文档评论(0)