计算机三级网络技术辅导:网络搜索技术.docVIP

计算机三级网络技术辅导:网络搜索技术.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
计算机三级网络技术辅导:网络搜索技术      1.搜索引擎的原理和组成      (1)搜索引擎的原理      搜索引擎的原理起源于传统的信息全文检索理论,即计算机程序通过扫描一篇文章中的所有词,建立以词为单位的排序文件,检索程序根据检索词在每篇文章中出现的频率和概率,对包含这些检索词的文章排序,最后输出排序结果。      (2)全文搜索引擎功能模块的组成      现在的全文搜索引擎一般由搜索器、索引器、检索器和用户接口4个部分组成。      ①搜索器。搜索器也称为“蜘蛛”、“机器人”或“爬虫”,实际上是一种基于Web的程序。搜索器在Inter上逐个访问服务器来收集信息,它通过请求Web站点上的HTML网页来采集该HTML网页,并建立一个网站的关键字列表。搜索器建立关键字列表的过程称为网络爬行。      ②索引器。索引器的功能是理解搜索器所搜索的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表。索引器可使用集中式索引算法或分布式索引算法。索引算法对索引器的性能有很大的影响。一个搜索引擎的有效性在很大程度上取决于索引的质量。      ③检索器。检索器的功能是根据用户查询在索引库中快速地检索出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性的反馈机制。网页检索器是一个在Web服务器上运行的CGI(公共网关接口)程序。      ④用户接口。用户接口的作用是输入用户查询,显示查询结果,提供用户相关性反馈机制。用户接口可以分为简单接口和复杂接口两种。      (3)目录导航式搜索引擎和网页搜索引擎的组成      目录导航式搜索引擎的信息搜集系统主要由人工完成,搜索引擎的标引专家依靠手工来搜寻不断出现的新网站,给每个网站一个标题和大概描述,将其放入相应的类目体系中。在页面上体现为每个类目路径下排列着的相关网站,所以也称为目录导航。目录导航式搜索引擎提供两种查询接口形式:一种是直接单击目录树,另一种是关键字检索。      2.Google和百度搜索引擎      Google是目前世界上使用率和搜索精度最高的全文搜索引擎,百度则是全球最大的中文搜索引擎,两者分别是国外、国内搜索引擎的领头羊。      (l)Google的主要技术      Google成立于1998年,创始人为美国斯坦福大学计算机科学系的两位博士。Google一词由英文单词googol变化而来,表示1后面有100个零的数字,显示了Google搜索能力的强大。      Google的主要技术有以下几点:      ①网页采集技术——分布式爬行系统。该系统通常由一个URL服务器将URL列表提供给网络爬行器(Google同时运行3个爬行器)。每个爬行器同时保持大约300个网络连接。      ②页面等级技术(PageRank)。Google是以OpenDirectoryProject为类目基础,开发了独树一帜的PageRank技术。      ③超文本匹配分析技术。超文本匹配分析技术是目前搜索引擎中最先进的检索技术。      (2)百度的主要技术      百度(.Baidu.)于1999年底在美国硅谷成立,创始人是北京大学的两位毕业生李彦宏和徐勇。“百度”一词来源于辛弃疾的名句“众人寻他千百度”。      ①智能性、可扩展搜索技术。      ②智能化中文语言处理技术。      ③分布式结构化算法与容错设计。      ④智能化相关度算法技术。      ⑤检索结果的智能化输出技术。      ⑥高效的搜索算法和服务器本地化。      在检索功能方面,百度还具有如下的功能:体贴的提示功能、快照功能、专业的MP3搜索功能、便于用户交流的“贴吧”功能、百度常用搜索功能等。    ?

文档评论(0)

scj1122118 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:8066052137000004

1亿VIP精品文档

相关文档