- 1、本文档共8页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
1、(单选,4分)
所有检索策略都包含三个要素,以下选项中不属于三要素的一项是()
A、匹配函数
B、排序函数
C、文档表示
D、查询表示
答案:B
2、(单选,4分)
在向量模型中,不可以通过()来衡量文档和查询之间的相似度。
A、向量间距离
B、向量内积
C、向量间夹角大小
D、向量间正切值
答案:D
3、(单选,4分)
T1、T2、T3表示特征项,D1、D2、D3、D4为文档向量,Q为查询向量,其中,D1=4T1+2T2+3T3,D2=T1+4T2+2T3,D3=5T1+2T3,D4= T2+3T3,Q=T1+0T2+2T3 。以上文档中和Q最大可能相关的是()
A、D1
B、D2
C、D3
D、D4
答案:A
4、(单选,4分)
以下选项中属于概率模型的优点的是()
A、模型具有内在的相关反馈机制,将文档根据相关概率按递减顺序排列
B、模型最初将文档分成相关的集合和不相关的集合
C、模型中所有的权值都是二值的
D、模型假设标引词相互独立
答案:A
5、(单选,4分)
信息检索模型中,神经网络模型属于()
A、布尔模型
B、向量模型
C、概率模型
D、结构化模型
答案:B
以下关于网络爬虫的描述中,错误的一项是()
A、在爬虫开始的时候,需要给爬虫输送一个URL列表,作为爬虫的起始位置
B、根据某种抓取策略爬行新发现的URL,如此重复下去
C、爬虫程序会抓取所有网页,以保证搜索正确性
D、对于商业搜索引擎来说,分布式爬虫是必须采用的技术
答案:C
7、(单选,4分)
在实际的搜索引擎系统中,通过存储()来存储文档信息
A、文档地址
B、文档简化序号
C、文档编号
D、文档编号差值
答案:D
8、(单选,4分)
下面方法中,不是建立索引的方法的是()
A、两边文档遍历法
B、排序法
C、归并法
D、HITS
答案:D
9、(单选,4分)
关于PageRank标准算法与简化算法正确的是()
A、PageRank简化算法对G中的每一个节点n,设定其初始值均为1/n
B、PageRank简化算法可以保证迭代过程中的PageRank值之和为1
C、PageRank标准算法不考虑没有超链接网页的情况
D、在实际运算过程中,由于节点数n的值巨大,因此通常采用适用于稀疏矩阵运算的PageRank标准算法来对运算过程进行改善
答案:A
关于HITS算法描述正确的是(C)
A、算法最后输出的是按照内容权威度排序的结果列表
B、如果在原有的扩展网页集合内添加删除个别网页或者改变少数链接关系,HITS算法的排名结果不会有非常大的改变
C、HITS算法核心思想是对网页两个方面的权威程度进行评价,一个是内容权威度,另一个是链接权威度,两者具有相互增强的关系
D、HITS是与查询相关的算法,计算效率较高
答案:C
11、(单选,4分)
网页重定向属于下列哪种作弊方式(C)
A、内容作弊
B、链接作弊
C、隐藏作弊
D、Web2.0作弊
答案:C
12、(单选,4分)
对网页进行两次抓取,第一次是正常的搜索引擎爬虫抓取,第二次以模拟人工访问页面的方式抓取,如果两次抓取到的内容差异较大,则认为是作弊页面,这属于()
A、识别网页重定向
B、识别页面隐藏
C、反内容作弊
D、链接反作弊
答案:B
13、(单选,4分)
以下不是搜索引擎的主要功能模块的一项是()
A、网络爬虫
B、搜索引擎索引
C、PageRank
D、搜索排序
答案:C
14、(单选,4分)
以下选项中描述不正确的是()
A、爬虫的作用是为搜索引擎抓取大量的数据,抓取的对象是整个互联网上的网页
B、根据具体应用的不同,可以将爬虫分为两种类型,即增量型爬虫和垂直型爬虫
C、暗网是一些垂直领域网站,它们通常是网站提供组合查询界面,用户按照需求输入查询之后,才能获取相关数据
D、倒排列表是指记载出现过某个单词的所有文档的文档列表、以及单词在该文档中出现的位置信息
答案:B
15、(单选,4分)
以下选项中描述正确的是()
A、动态索引包含2个关键的索引结构:倒排索引、临时索引
B、查准率是衡量系统在实施某一作业时检出相关文献能力的一种测度指标,是对检索遗漏程度的度量。
C、中文分词技术采用了基于符号的方法来识别
D、机器学习的四个步骤中,文档特征抽取是指利用抽取算法抽取查询词TF/IDF信息、文档长度、网页PageRank值、网页入链/出链数量等
答案:D
16、(单选,4分)
以下关于推荐系统和搜索引擎的说法中,错误的是()
A、推荐系统和搜索引擎都是为了解决信息过载的问题
B、搜索引擎需要用户提供明确的需求
C、推荐系统是由用户主导的
D、搜索引擎注重结果之间的排序
您可能关注的文档
- 风险降低流程.doc
- 湖北省长阳县第一高级中学2019-2020年高二上学期入学考试化学试题及答案.doc
- 课时分层作业13-金岳霖先生.doc
- 牛津七年级上Unit1-Unit4 词汇复习(无答案).doc
- 河北中考数学阶段性测试 第四章 三角形.docx
- 京改版九年级化学上册:8.2 二氧化碳的性质和用途 教案设计.docx
- 2020届高三地理复习讲解:传统经济、循环经济、低碳经济的区别和联系.docx
- 2019秋语文人教版选修《中国古代诗歌散文欣赏》练习题:第三单元第15课苏幕遮-Word版含解析.doc
- 江西省宜春市宜丰县二中2020届高三上学期第一次月考化学试卷和答案.doc
- 做好课件-你需要知道这六件事.pptx
文档评论(0)