索引型搜索引擎.pptVIP

  1. 1、本文档共35页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
索引型搜索引擎 目 录 一 索引型搜索引擎的工作方式 二 常用索引型搜索引擎介绍 Google、百度、altavista 一 索引型搜索引擎的工作原理 图5-1 索引型搜索引擎的系统架构图 索引型搜索引擎的具体工作过程 索引型搜索引擎的具体工作过程 1. 搜索器 搜索器包括“蜘蛛控制”和“网络蜘蛛”两部分。“网络蜘蛛”(Spider,Crawlers,Robot),是一种可以查询网页上的超链接的自动搜索机器人程序。网络蜘蛛从种子网页出发,通过反复下载网页并从文档中寻找未曾见过的URL,达到访问其他网页得以遍历Web的目的。 网络蜘蛛的工作策略一般则可以分为两种: ① 累积式抓取。 ② 增量式抓取。 两种抓取策略并不是相互排斥的,实际的网络蜘蛛设计中,通常既包括累积式抓取,也包括增量式抓取的策略。 2. 分析器:和搜集器一起共同完成信息采集工作 ① 新的URL链接的获取。网络蜘蛛一般通过一个URL列表进行网页的自动分析与采集。起初的URL并不多,但当网络蜘蛛分析到网页有新的链接时,就会把新的URL添加到URL列表,以便采集,队列中记录所有将被访问的URL 及访问顺序。网络蜘蛛从队列中抽取一个URL,下载页面,记录该URL所指HTML 文件中所有新的URL,并将这些新的URL加入队列中。然后再以这些新的URL 为起始点重复上述过程,直到没有满足条件的新URL为止。 ② 网页数据更新。搜索引擎的网络蜘蛛一般要定期重新访问所有网页,更新网页索引数据库,以反映网页内容的更新情况,增加新的网页信息,去除死链接。搜索引擎的自动信息搜集更新策略有定期搜索和提交网站搜索两种 。 3. 索引器 索引器将收集到的信息进行分类整理,建立索引数据库。由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的所有关键词、关键词位置、生成时间、大小、与其它网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面文字中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。 好的索引能提高搜索引擎系统的运行效率及检索结果的质量。索引是搜索中较为复杂的部分,是搜索技术高低的集中体现。 4. 检索器 当用户以关键词查找信息时,搜索引擎接受查询并分解查询请求,由检索器的搜索系统程序从索引数据库中查找符合该关键词的所有相关网页,然后按等级进行排序,并将排序结果返回给用户。 5. 用户接口 用户接口的作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。 (1)用户检索接口 (2)检索结果显示 二 常用索引型搜索引擎介绍 1. Google(.hk) (1)Google概况与特点 Google是由斯坦福大学博士生Larry Page与Sergey Brin于1998年9月在美国硅谷创建的高科技公司。 Google一词来源于“googol”,是10的100次方,表示公司整合网上海量信息的远大目标。 自2000年商业运营以来, Google以其先进的技术、全面的检索功能和简单有效的服务,在全球范围内拥有了大量的用户,目前已经发展成为世界范围内规模最大的搜索引擎和最优秀的搜索引擎之一。 公司还将其搜索引擎技术出售给世界上许多公司网站,目前包括Facebook、亚马逊、微软等知名网站在内的全球数百家公司采用了google搜索引擎技术。 Google支持使用中、英、德、日、法等50多种语言。 (2)Google中国概况 2000年9月12日,谷歌开发其主站.com的中文界面。 2005年7月,李开复加盟Google,并担任Google中国区总裁。 2006年4月12日,Google全球CEO在北京宣布Google的中文名字为“谷歌”,Google正式进入中国。 2009年9月4日前谷歌全球副总裁、大中华区总裁李开复正式辞职,Google公司未说明离职原因。 2010年初谷歌退出中国大陆。 (3)Google的PageRank技术 Google以其独树一帜的网页级别(PageRankTM)专利技术,打破了传统网络分类概念。 该技术是基于网页的自然结构,也就是当从网页A链接到网页B时,Google就认为“网页A投了网页B一票”。Google根据网页的得票数评定其重要性。 除了考虑网页得票数(即链接)的纯数量之外,Google还要分析为其投票的网页。“重要”网页所投之票自然份量较重,有助于增强其他网

文档评论(0)

didala + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档