《信息检索导论》课后习题答案.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
《信息检索导论》课后习题答案 《信息检索导论》课后习题答案 PAGE 《信息检索导论》课后习题答案 《信息组织与检索》作业答案 布尔检索 习题1-2 考虑如下几篇文档: 文档1 breakthrough drug for schizophrenia 文档2 new schizophrenia drug 文档3 new approach for treatment of schizophrenia 文档4 new hopes for schizophrenia patients a. 画出文档集对应的词项—文档矩阵; b. 画出该文档集的倒排索引(参考图 1-3中的例子)。 Term-Documentmatrix: 1 2 3 4 approach 0 0 1 0 breakthrough 1 0 0 0 drug 1 1 0 0 for 1 0 1 1 hopes 0 0 0 1 new 0 1 1 1 of 0 0 1 0 patients 0 0 0 1 schizophrenia 1 1 1 1 treatment 0 0 1 0 Inverted Index: approach - 3 breakthrough -1 drug -1-2 for -1-3-4 hopes -4 new -2-3-4 of -3 patients -4 schizophrenia -1-2-3-4 treatment 3 注意:倒排索引中的词表(dictionary)和每个词项的倒排列表(posting list)需要排序,便于查找。这里我们暂不考虑词的正规化处理(如hopes-hope)。 补充习题1 写出AND查询的伪代码 面向过程风格的伪代码: 给定两个指针p1和p2,分别指向两倒排列表list1和list2(链表实现)的首元素;令docId(p1)表示p1所指向的元素的docId查询结果存放在answer列表里。 这里应用了“化归”思想(将新问题转化归为旧问题来解决)。这里,比较两排序列表的首元素,排除较小的docId(不可能有匹配)后,我们构造出新的剩余列表,再次进行两列表的首元素的比较。 While p1 != null AND p2 != null If p1-docId==p2-docId etDocId() == ().getDocId() ()); (); (); Else if ().getDocId() ().getDocId() (); Else (); End 习题1-10 写出OR查询的伪代码 面向过程风格的伪代码: 给定两个指针p1和p2,分别指向两倒排列表list1和list2(链表实现)的首元素;令docId(p1)表示p1所指向的元素的docId;查询结果存放在answer列表里。 While p1 != null AND p2 != null If p1-docId == p2-docId insert(answer, p1); p1=p1-next; p2=p2-next; etDocId() == ().getDocId() ()); (); (); Else if ().getDocId() ().getDocId() ()); (); Else ()); (); End While () != null ()); (); END While () != null ()); (); END 补充习题2 若一个文集有1000篇文档,有40篇是关于信管专业建设的。我的信息需求是了解信管专业的专业建设情况,用某搜索引擎在这个文集上搜索,查询词为“信管”,搜出100篇包含“信管”的文档,这其中有20篇是信管专业建设方面的,其它80篇是关于信管的其它情况。请问该查询的正确率和召回率是多少 正确率=20/100= 召回率=20/40= 词项词典及倒排记录表 习题2-1 在布尔检索系统中,进行词干还原从不降低正确率。 错;相当于扩充出同一个词干表示的多个词,会降低正确率。 在布尔检索系统中,进行词干还原从不降低召回率。 对。 c. 词干还原会增加词项词典的大小。 错。 d. 词干还原应该在构建索引时调用,而不应在查询处理时调用。 错;应同时做才能保证索引中和查询词的匹配。 习题2-2 请给出如下单词的归一化形式(归一化形式也可以是词本身)。 a. ’Cos - cos b. Shi’ite - shiite(是隔音号) c. cont’d -contd(contd. 可表示contained 包括;continued 继续) d. Hawai’i -hawaii e

文档评论(0)

134****6639 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档