信息检索导论-王斌第二次课后作业(6-12).docVIP

信息检索导论-王斌第二次课后作业(6-12).doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
信息检索导论-王斌第二次课后作业(6-12)

1、习题6-10 tf-idf = tf * idf car的tf-idf值在三篇文档中分别为: Doc1:27*1.65=44.55;Doc2:4*1.65=6.6;Doc:24*1.65=39.6; auto的tf-idf值在三篇文档中分别为: Doc1:3*2.08=6.24;Doc2:33*2.08=68.64;Doc:0*2.08=0; insurance的tf-idf值在三篇文档中分别为: Doc1:0*1.62=0;Doc2:33*1.62=53.46;Doc:29*1.62=46.98; best的tf-idf值在三篇文档中分别为: Doc1:14*1.5=21.0;Doc2:0*1.5=0;Doc:17*1.5=25.5; 2、习题6-19 所用公式:wf = 1+logtft,d, tft,d00, otherwise idf=logNdf 词 查询 文档 qi*di tf Wf df idf qi=wf-idf tf wf di=归一化的wf digital 1 1 10000 3 3 1 1 0.52 1.56 video 0 0 100000 2 0 1 1 0.52 0 cameras 1 1 50000 2.301 2.301 2 1.301 0.677 1.558 归一化:12+12+1.3012=1.922 1/1.922 = 0.52 1301/1.922 = 0.677 最后的相似度结果为:1.56+1.558=3.118 3、习题7-2 胜者表是提出的一种更快获取得分较高文档的一种方法,基本思路是考虑r篇的tf值。但在实际应用中,还应考虑到文档长度以及用户对搜索结果的关注程度等因素,并希望只关注那些不仅相关度高并且权威度也大的文档。如果只根据tf值来选取最后的结果文档,很可能导致的情况是,搜索结果和查询虽然相关,但会有文档长度过长且不是用户想得到的结果的问题。因此在考虑到全局的情况下,引入了g(d)和tf-idf来对胜者表进一步扩展和精确。这样高分文档更可能在倒排索引的前期出现。 4、习题7-8 5、习题8-8 b. 系统1的返回结果中相关文档比较集中,靠前两个,靠后两个。系统2的返回结果中相关文档比较分散。系统1比系统2获得较高的MAP值。 排名靠前的相关文档对MAP值影响较大,相关文档位置越靠前,系统能获得越高的MAP值。 c. R1=2/4=0.5 R2=1/4=0.25 按照R正确性值来看,与MAP的排序结果一致。 6、习题9-3 7、习题9-7 矩阵C里的元素表示该词项是否在这些文档中同时出现,1表示同时出现,0表示没有同时出现。 8、习题11-3 9、习题12-6 D=(the, 2, martian, 1, has, 1, landed, 1, on, 1, latin, 1, pop, 1, sensation, 1, ricky, 1, martin, 1) a. P(the) = 2/11 = 0.182, P(martian) = 1/11 = 0.091 b. P(sensation|pop) = 1, P(pop|the) = 0 10、习题12-7 该文档集的查询似然模型为: click go the shears boys metal here 模型1 1/2 1/8 1/8 1/8 1/8 0 0 模型2 1 0 0 0 0 0 0 模型3 0 0 0 0 0 1/2 1/2 模型4 1/4 0 0 1/4 0 1/4 1/4 文档集模型 7/16 1/16 1/16 2/16 1/16 2/16 2/16 每篇文档模型对应的概率: Pdq∝P(d)t∈q[1-λPtMc+λP(t|Md)] query Doc1 Doc2 Doc3 Doc4 click 15/32 23/32 7/32 11/32 shears 2/16 1/16 1/16 3/16 click shears 15/256 23/512 7/512 33/512 P(click|doc1)=1/2*1/2+7/16*1/2=15/32, P(click|doc2)=1*1/2+7/16*1/2=23/32 P(shears|doc1)=1/8*1/2+2/16*1/2=2/16, P(click shears|doc1)=15/32*2/16=15/256 对于查询click shears来说,最后得到的文档次序为:doc4, doc1, doc2, doc3。

文档评论(0)

almm118 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档