搜索引擎4.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
从因特网获取信息的利器——搜索引擎 互联网出现到现今,信息量可以说成幂指数的增长,大量信息就像Google的原本含义“1的后面跟着100个0”一样,这个数比宇宙所有的基本粒子的数量总和还要大。我们喜爱在信息的海洋中自由遨游,正是因为它有无尽的信息资源可供浏览查询,可有时候当我们去寻找所需要的信息时,却如同大海捞针一样难。如何才能在这浩如烟海的信息中找到自己需要的信息呢?——搜索引擎就像一只神奇的手,帮助我们从杂乱的信息中抽出一条清晰的检索路径。 定 义: 搜索引擎(Search Engine)是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,并将处理后的信息显示给用户,是为用户提供检索服务的系统。 起 源: 1990年,加拿大麦吉尔大学(University of McGill)计算机学院的师生开发出Archie。当时,万维网(World Wide Web)还没有出现,人们通过FTP来共享交流资源。Archie能定期搜集并分析FTP服务器上的文件名信息,提供查找分别在各个FTP主机中的文件。用户必须输入精确的文件名进行搜索,Archie告诉用户哪个FTP服务器能下载该文件。虽然Archie搜集的信息资源不是网页(HTML文件),但和搜索引擎的基本工作方式是一样的:自动搜集信息资源、建立索引、提供检索服务。所以,Archie被公认为现代搜索引擎的鼻祖。 最早现代意义上的搜索引擎出现于1994年7月。当时Michael Mauldin将John Leavitt的蜘蛛程序接入到其索引程序中,创建了大家现在熟知的Lycos。同年4月,斯坦福大学的两名博士生,美籍华人杨致远(Gerry Yang)和美国人David Filo,共同创办了雅虎(Yahoo),并成功地使搜索引擎的概念深入人心。从此搜索引擎进入了高速发展时期。(视频:搜索引擎的发展历史) 组 成: 搜索引擎一般由搜索器、索引器、检索器和用户接口四个部分组成,各自功能如下: ① 搜索器:在互联网中漫游,发现和搜集信息; ② 索引器:理解搜索器所搜索到的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表; ③ 检索器:根据用户的查询在索引库中快速检索文档,进行相关度评价,对将要输出的结果排序,并能按用户的查询需求合理反馈信息; ④ 用户接口:接纳用户查询、显示查询结果、提供个性化查询项。 工作原理: 搜索引擎通常收集了互联网上几千万到几十亿个网页并对网页中的每一个文字(即关键词)进行索引,建立了索引数据库。当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜索出来。在经过复杂的算法进行排序后,这些结果将按照与搜索关键词的相关度高低,依次排列。 搜索引擎的原理,可以看做三步:从互联网上抓取网页→建立索引数据库→等待用户提出搜索请求,根据关键词在索引数据库中搜索排序。搜索引擎并不真正搜索互联网,它搜索的实际上是预先整理好的网页索引数据库。(图 解) (1)抓取网页(搜索器) 每个独立的搜索引擎都有自己的网页抓取程序(Spider)。Spider顺着网页中的超链接,连续地抓取网页。被抓取的网页被称之为网页快照。由于互联网中超链接的应用很普遍,理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。 (2)处理网页(索引器)   搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中,最重要的就是提取关键词,建立索引文件。其他还包括去除重复网页、分析超链接、计算网页的重要度。 任务:下图是中国2010年上海世博会官方网站的源代码截图,请注意其中关键词部分的内容。 (3)提供检索服务(检索器、用户接口) 用户输入关键词进行检索,搜索引擎从索引数据库中找到匹配该关键词的网页;为了用户便于判断,除了网页标题和URL外,还会提供网页描述或一段来自网页的摘要、网页快照以及其他信息。 任务1:百度中搜索“搜索引擎”、“上海世博”或者其他自定内容,查看网页快照。 任务2:老师备课时遇到了一些问题,请帮忙思考解决: (a)需要腾讯搜搜的logo图标,可当时搜搜网页上是清明的图片,怎么才能找到原来的logo图片? (b)用Google搜索javascript的某个知识点,已经在搜索结果列表中看到了要找的内容,但是链接打不开,想用快照看吧,可是谷歌的快照竟然也打不开,并且只搜索到这一个有用的链接,这时该怎么办呢? 分类及其特点: (1)全文搜索引擎(关键词搜索引擎) 全文检索是指计算机索引程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置,当用户查询时,检索程序就根据事先建立的索引进行查找,并将查找的结果反馈给用户的检索方式。这个过程类似于通过字典中的检索字表查字的过

文档评论(0)

海川电子书城 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档