第1章 搜索擎概述.ppt

  1. 1、本文档共28页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
清华大学出版社 第1章 搜索引擎概述 随着互联网的飞速发展,人们越来越依靠网络来查找他们所需要的信息 由于网上的信息源数不胜数,如何有效地去发现我们所需要的信息,就成为一个很关键的问题,为了解决这个问题,搜索引擎应运而生 百度2005年在纳斯达克成功上市,Google在全球市场突飞猛进 仅在开源社区SourceForge上,搜索引擎的项目就有将近10000项 在索引数据库中搜索排序:当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已计算好,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。最后,由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户 对搜索结果进行处理和排序:所有相关网页针对该关键词的相关信息在索引库中都有记录,只需综合相关信息和网页级别形成相关度数值,然后进行排序,相关度越高,排名越靠前。最后由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户 搜索引擎至今已经经历了三代发展阶段: 第一代搜索引擎出现于1994年,主要特征为集中式检索 第二代搜索引擎系统大约出现在1996年,大多采用分布式检索方案,即多个微型计算机协同工作来提高数据规模、响应速度和用户数量 第三代搜索引擎系统出现在1998年到2000年间,这一时间是搜索引擎空前繁荣的时期 它的发展的三大特点 (可能为简答、判断、选择、填空) 1.2.1 搜索引擎的发展史 现代意义上的搜索引擎的祖先是1990年由蒙特利尔大学学生Alan Emtage发明的Archie,这是第一个自动索引互联网上匿名FTP网站文件的程序,但它还不是真正的搜索引擎 Computer Robot是指某个能以人类无法达到的速度不断重复执行某项任务的自动程序 由于专门用于检索信息的Robot程序像蜘蛛(Spider)一样在网络间爬来爬去,因此,搜索引擎的Robot程序被称为Spider(Spider FAQ)程序 1994年初,Washington大学的学生 Brian Pinkerton 开始了他的小项目 WebCrawler ( Brian Pinkerton Announces the Availability of WebCrawler ) 检索结果处理技术 (选择题,填空题或简答) 纯净搜索引擎 元搜索引擎 集成搜索引擎 垂直搜索引擎 1.3 搜索引擎的分类 搜索引擎和常规意义上的全文检索主要区别: 数据量 内容相关性 安全性 个性化和智能化 搜索引擎按其工作方式主要可分为三种: 全文搜索引擎(Full Text Search Engine) 目录索引搜索引擎(Search Index/Directory) 元搜索引擎(Meta Search Engine) 可能题型:填空,选择,判断,简答 1.3.4 分布式搜索引擎 分布式搜索引擎按区域、主题或其他标准创建分布式索引服务器,索引服务器之间相互可以交换中间信息,且查询可以被重新定向 由于分布式搜索引擎将索引数据库划分到几个分布的数据库中,每个数据库变得小一些,但所有搜索引擎覆盖的范围变大,且很少有信息重复,而作为分布式系统特性之一的可扩充也是分布式搜索引擎的优点之一 然而分布式搜索引擎需要多个索引数据库协同工作,实现较困难,因此目前尚未有真正的、实用的分布式搜索引擎 1.4 搜索引擎的信息检索模型 布尔逻辑模型 模糊逻辑模型 向量空间模型 概率模型 可能题型:填空,选择,判断,简答 1.5 搜索引擎的关键技术 信息收集和存储技术 信息预处理技术 信息索引技术 可能题型:填空,选择,判断,简答 信息预处理要做的工作: 关键词的提取 重复或转载网页的消除 链接分析 网页重要程度的计算

文档评论(0)

lanhe8975915 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档