- 1、本文档共197页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
信息存储与检索重点
5.4.2 搜索引擎的结构与原理 5.4.2 搜索引擎的结构与原理 (一)收集器 收集器负责信息的采集工作。 搜索引擎的信息采集机制按照人工程度划分,可分为人工采集和自动采集;按照信息时新性,可分为定期搜集和增量搜集两种。 5.4.2 搜索引擎的结构与原理 人工采集和自动采集 人工采集是由专门的信息采集人员跟踪、选择有用的Web站点或页面,对站点的内容和性质进行规范化分析的分类标引,并组建索引数据库。 自动采集则是利用能够自动跟踪、收集并标引网页的Robot软件,自动访问WWW,并沿着WWW超文本链,在整个WWW上搜寻页面,建立、维护、更新索引数据库。 5.4.2 搜索引擎的结构与原理 由于网络信息资源众多,每天都有新的信息出现,人工采集的速度有限;而自动采集能够自动搜索、采集和标引网络上众多的站点和页面,从而保障了对网络信息资源跟踪与检索的有效性和及时性。 虽然人工采集的速度不及自动采集,但它是基于专业性的资源选择和分析标引,因此可以保证所采集的资源质量和标引质量。 利用人工采集的搜索引擎具有查准率高,查全率低,搜索范围较小的特点;而自动采集搜索引擎虽然获得的信息量大、信息更新及时而且不需要人工干预,但它返回的信息过多,掺杂着有很多无关信息,需要用户从结果中甄选。 5.4.2 搜索引擎的结构与原理 定期搜集和增量搜集 定期搜集,每隔一定的时间就重新搜集一次,而且每次的搜集都替换掉上一次的全部内容。 由于每次都全部重新搜集,对于规模比较大的搜索引擎来说,每次搜集的时间通常都会花费几周的时间。而且因为这样做开销比较大,通常两次搜集所间隔的时间相对来说会比较长。 这种做法的好处是系统实现比较简单,缺点主要是网页“时新性”较低,重复搜集会带来额外的带宽消耗。 5.4.2 搜索引擎的结构与原理 增量搜集,在开始时搜集一批网页,以后便只搜集新出现的和在上次搜集后有所改变的网页,并检查自从上次搜集之后已经不再存在了的网页,并将其从库中删除。 因为除新闻网性站外,许多网页内容的变化频率并不是很高,这样做每次搜集的网页量不会很大,可以经常启动搜集过程。 这样的系统的优点是网页时新性比较高,主要缺点是搜集和标引的过程都比较复杂。 5.4.2 搜索引擎的结构与原理 (二)索引器 索引器的功能是理解收集器所搜索的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表,使检索者能够快速地检索到所需信息。 建立索引需要进行以下处理:(1)信息语词切分和语词词法分析;(2)进行词性标注及相关的自然语言处理;(3)建立检索项索引。 5.4.2 搜索引擎的结构与原理 索引表一般使用某种形式的倒排表,倒排表中的每项包含一组指针,指向它出现的网页,即由索引项查找相应的文档。 索引表也可能要记录索引项在文档中出现的位置,以便检索器计算索引项之间的相邻或邻近关系。 5.4.2 搜索引擎的结构与原理 索引数据库的更新有重建式和累积式两种方式。 重建式就是每次搜集之后将原有的索引数据库全部重新更新; 累积式只是对新出现或发生变化的网页进行索引并增加到数据库中,同时删除已经不存在的网页的索引。 5.4.2 搜索引擎的结构与原理 搜索引擎的有效性在很大程度上取决于索引数据库的质量。 索引数据的规模越大,与用户检索请求相关的信息出现的几率就越高,检索结果越多,查全率也就越高。 同时,索引数据库的更新周期也决定了信息查全率:周期越长,查全率越低;反之,查全率越高。 5.4.2 搜索引擎的结构与原理 (二)检索器 搜索引擎的检索器负责根据用户的检索请求,从索引数据库中快速查找相匹配的网页,并将结果按顺序以Web方式呈现给用户。 检索器常用的信息检索模型有集合理论模型、代数模型、概率模型和混合模型四种。 5.4.2 搜索引擎的结构与原理 目前,搜索引擎确定相关性的方法序基本上都采用基于Web文档内容的方法,即考虑用户所提出的检索项在文档中出现的情况,主要有概率方法、位置方法、摘要方法、分类或聚类方法等。 5.4.2 搜索引擎的结构与原理 概率方法判断文件的相关性的指标是关键词在文中出现的频率,关键词出现的频率越高,该文件的相关性就越高。 位置方法判断文件相关性的指标是关键词在文
您可能关注的文档
- 九下语文(五).doc
- 初一数学63检测.doc
- 二语古诗文诵读.doc
- 必修3 21导学案.doc
- 这片土地神圣的教学设计.doc
- 必修3 12导学案.doc
- 2013年USNews美国大学会计专业研究生排名.doc
- 高一必修一期末总复习卷(二).doc
- 出口与我国经济增长关系的研究.doc
- 2013年USNews美国大学市场营销专业研究生排名.doc
- 2025年江西水利职业学院单招(语文)测试模拟题库1套.docx
- 2025年社区工作者备考题库500道【轻巧夺冠】.docx
- 2025年江西机电职业技术学院单招语文测试题库学生专用.docx
- 2025年社区工作者备考题库500道【b卷】.docx
- 2025年监理工程师之土木建筑目标控制题库500道【突破训练】.docx
- 2025年环境影响评价工程师之环评技术方法题库500道附参考答案【突破训练】.docx
- 2025年监理工程师之土木建筑目标控制题库500道(网校专用).docx
- 2025年河北化工医药职业技术学院单招(语文)测试题库及答案参考.docx
- 2025年环境影响评价工程师之环评技术方法题库500道带答案(轻巧夺冠).docx
- 2025年监理工程师之土木建筑目标控制题库500道(典型题).docx
最近下载
- 刑事审判参考2001年第7辑(总第18辑).pdf VIP
- 刑事审判参考2001年第4辑(总第15辑).pdf VIP
- GB/T 18998.5-2022工业用氯化聚氯乙烯(PVC-C)管道系统 第5部分:系统适用性.pdf
- 刑事审判参考2001年第8辑.总第19辑.pdf VIP
- 急诊危重症护理新进展题库答案-2025年华医网继续教育答案.docx VIP
- 《共圆中国梦》教学设计 统编版道德与法治九年级上册.pdf
- 新解读《DL_T 2765—2024输变电工程逻辑模型规范》最新解读.docx VIP
- 2025年锅炉水处理作业G3证理论考试笔试试题(400题)含答案.docx VIP
- 刑事审判参考2001年第9辑.总第20辑.pdf VIP
- 房地产开发重要节点及流程.pptx VIP
文档评论(0)