Web信息检索复习题2011 word打印版.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Web信息检索复习题2011 word打印版

基于Web的信息检索和知识发现 去年的重点 1 、2、 4 、5 、6 、7 、11 、12 、15 、19 、22 一、问答题 (70分 10题*7分) 1、 2、 4 、5 、6、15、22 二、算法题 (30分 3题*10分) 7 、8 、11、12、14、19 1、web 搜索引擎一般有哪3个部分组成(Web网页收集,中间的索引处理和对用户查询的检索排序),能叙述各自的主要功能。 答:搜索引擎一般有信息搜集模块、预处理模块和检索服务三部分组成。 信息搜集模块负责以合适的策略漫游网络搜集网页数据,填充本地原始网页库和网页结构库。 预处理模块负责对搜集到的原始网页进行净化、消重、正文抽取、分词和关键词提取等处理,建立网页的倒排索引;进行链接分析,计算网页的Page Rank值。 检索服务模块负责与用户交互,根据用户的查询在索引库中快速检索文档,计算各检出文档与查询的相关度,对结果进行排序后展示给用户。 2、信息检索系统的数学模型是怎么描述的,能给出数学模型中的参数的含义? D, Q, F, R(qi,dj) 答:信息检索模型(IR model),依照用户查询,对文档集合进行相关排序的一组前提假设和算法。 IR模型可形式地表示为一个四元组 D, Q, F, R(qi,dj) 其中D是一个文档集合,Q是一个查询集合,F是一个对文档和查询建模的框架,R(qi,dj) 是一个排序函数,它给查询qi和文档 dj 之间的相关度赋予一个排序值。 3、信息检索的两种不同检索形式及含义。 答:a) 特别检索(ad hoc retrieval),用户可以不断地提出新的检索需求或新组合,检索系统中的文献不变;如Google,Baidu,Bing… b) 用户的检索需求描述是固定不变的,当得到新的文档后,把与用户需求相关的文档留下,并分类和排序后提交给用户;如股票,新闻,天气,航班 简述布尔与向量空间模型 (VSM) ,向量是如何产生的,其中包括文挡的向量表示方式, tf, idf的含义 (看课件),以及如何计算向量之间的相似度的方法。这种方法的优缺点是什么? 当维数比较大时,利用隐性语义索引模型降维的方法是什么?其数学原理是什么?(见课件) 附:基本符号解释,便于理解,答案中不用写 a) ki 表示一个标记词 b) dj 表示一个文档 c) t 表示所有文档的数目 d) K = (k1, k2, …, kt) 表示所有标记词的集合 e) wij = 0 表示关键词 ki 相对文档 dj 的权重 f) wij = 0 若ki 不在dj 中。 g) vec(dj) = (w1j, w2j, …, wtj) :文档dj 的加权重的向量表示。 h) gi(vec(dj)) = wij :得到分量的函数。 答:(1)布尔与向量空间模型 布尔检索模型 一种简单的检索模型,它建立在经典的集合论和布尔代数的基础上。 遵循两条基本规则: 每个索引词在一篇文档中只有两种状态:出现或不出现,对应权值为0或1。 查询是由三种布尔逻辑运算符 and, or, not 连接索引词组成的布尔表达式。 对于布尔模型而言,索引词权值变量都是二值的,wij∈{0,1}.用qdnf表示查询q的析取范式,qcc表示qdnf的任意合取分量,二值变量gi(dj)是表示索引项ki是否在文档dj中出现的值,二值变量gi(qcc)是表示索引项ki是否在合取分量qcc中出现的值 sim(dj, q)为该模型的匹配函数: 文献为dj与查询q的相似度为: 如果sim(dj,q)=1,则表示文献dj与q相关,否则为不相关。 例 虽然文献包含了kb, 但 sim(dj,q) = 0. 优点:简单、易理解、简洁的形式化。 缺点:准确匹配,信息需求的能力表达不足。不能输出部分匹配的情况,无法排序,用户必须会用布尔表达式提问,一般而言,检出的文档或者太多或者太少。 向量空间模型(Vector Space Model, VSM) 相比于布尔模型要求的准确匹配, VSM模型采用了“部分匹配”的检索策略(即:出现部分索引词也可以出现在检索结果中) 通过给查询或文档中的索引词分配非二值权值来实现 优点:帮助改善了检索结果。部分匹配的文档也可以被检索到。可以基于向量cosine 的值进行排序,提供给用户。 缺点:这种方法假设标记词是相互独立的,但实际可能不是这样,如同义词、近义词等往往被认为是不相关的词 向量是如何产生 去停用词(stop word):指文档中出现的连词,介词,冠词等并无太大意义的词。例如在英文中常用的停用词有the,a, it等;在中文中常见的有“是”,“的”,“地”等 选索引词(标

文档评论(0)

shenlan118 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档