Web信息检索复习题2011 word打印版.docVIP

下载本文档

29
0
约2.37万字
约 15页
2017-08-21 发布于重庆
举报
版权申诉

Web信息检索复习题2011 word打印版.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Web信息检索复习题2011 word打印版

基于Web的信息检索和知识发现去年的重点 1 、2、 4 、5 、6 、7 、11 、12 、15 、19 、22 一、问答题（70分 10题*7分） 1、 2、 4 、5 、6、15、22 二、算法题（30分 3题*10分） 7 、8 、11、12、14、19 1、web 搜索引擎一般有哪3个部分组成（Web网页收集，中间的索引处理和对用户查询的检索排序）,能叙述各自的主要功能。答：搜索引擎一般有信息搜集模块、预处理模块和检索服务三部分组成。信息搜集模块负责以合适的策略漫游网络搜集网页数据，填充本地原始网页库和网页结构库。预处理模块负责对搜集到的原始网页进行净化、消重、正文抽取、分词和关键词提取等处理，建立网页的倒排索引；进行链接分析，计算网页的Page Rank值。检索服务模块负责与用户交互，根据用户的查询在索引库中快速检索文档，计算各检出文档与查询的相关度，对结果进行排序后展示给用户。 2、信息检索系统的数学模型是怎么描述的，能给出数学模型中的参数的含义？ D, Q, F, R(qi,dj) 答：信息检索模型（IR model），依照用户查询，对文档集合进行相关排序的一组前提假设和算法。 IR模型可形式地表示为一个四元组 D, Q, F, R(qi,dj) 其中D是一个文档集合，Q是一个查询集合，F是一个对文档和查询建模的框架，R(qi,dj) 是一个排序函数，它给查询qi和文档 dj 之间的相关度赋予一个排序值。 3、信息检索的两种不同检索形式及含义。答：a) 特别检索(ad hoc retrieval)，用户可以不断地提出新的检索需求或新组合，检索系统中的文献不变；如Google，Baidu，Bing… b) 用户的检索需求描述是固定不变的，当得到新的文档后，把与用户需求相关的文档留下，并分类和排序后提交给用户；如股票，新闻，天气，航班简述布尔与向量空间模型 (VSM) ,向量是如何产生的，其中包括文挡的向量表示方式, tf, idf的含义（看课件）,以及如何计算向量之间的相似度的方法。这种方法的优缺点是什么？当维数比较大时，利用隐性语义索引模型降维的方法是什么？其数学原理是什么？(见课件) 附：基本符号解释，便于理解，答案中不用写 a) ki 表示一个标记词 b) dj 表示一个文档 c) t 表示所有文档的数目 d) K = (k1, k2, …, kt) 表示所有标记词的集合 e) wij = 0 表示关键词 ki 相对文档 dj 的权重 f) wij = 0 若ki 不在dj 中。 g) vec(dj) = (w1j, w2j, …, wtj) ：文档dj 的加权重的向量表示。 h) gi(vec(dj)) = wij ：得到分量的函数。答：（1）布尔与向量空间模型布尔检索模型一种简单的检索模型，它建立在经典的集合论和布尔代数的基础上。遵循两条基本规则: 每个索引词在一篇文档中只有两种状态：出现或不出现，对应权值为0或1。查询是由三种布尔逻辑运算符 and, or, not 连接索引词组成的布尔表达式。对于布尔模型而言，索引词权值变量都是二值的，wij∈{0,1}.用qdnf表示查询q的析取范式，qcc表示qdnf的任意合取分量，二值变量gi(dj)是表示索引项ki是否在文档dj中出现的值，二值变量gi(qcc)是表示索引项ki是否在合取分量qcc中出现的值 sim(dj, q)为该模型的匹配函数：文献为dj与查询q的相似度为：如果sim(dj,q)=1，则表示文献dj与q相关，否则为不相关。例虽然文献包含了kb, 但 sim(dj,q) = 0. 优点：简单、易理解、简洁的形式化。缺点：准确匹配，信息需求的能力表达不足。不能输出部分匹配的情况，无法排序，用户必须会用布尔表达式提问，一般而言，检出的文档或者太多或者太少。向量空间模型(Vector Space Model, VSM) 相比于布尔模型要求的准确匹配, VSM模型采用了“部分匹配”的检索策略（即：出现部分索引词也可以出现在检索结果中）通过给查询或文档中的索引词分配非二值权值来实现优点：帮助改善了检索结果。部分匹配的文档也可以被检索到。可以基于向量cosine 的值进行排序，提供给用户。缺点：这种方法假设标记词是相互独立的，但实际可能不是这样，如同义词、近义词等往往被认为是不相关的词向量是如何产生去停用词(stop word):指文档中出现的连词，介词，冠词等并无太大意义的词。例如在英文中常用的停用词有the，a, it等；在中文中常见的有“是”，“的”，“地”等选索引词(标