搜索引擎inanutshell.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
搜索引擎inanutshell

搜索引擎 in a nutshell 概念 和 分类 发展历史 工作原理 系统组成 技术发展趋势 商务模式 搜索引擎 – 概念 搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统 搜索引擎包括全文搜索引擎、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等 搜索引擎 – 分类 全文搜索引擎 从互联网提取各个网站的信息(以网页文字为主),建立起数据库,并能检索与用户查询条件相匹配的记录,按一定的排列顺序返回结果 (Google、百度) 目录索引 严格意义上不能称为真正的搜索引擎,只是一个黄页。用户按照分类目录找到所需要的信息,不依靠关键词查询(Yahoo、新浪分类目录搜索) 垂直搜索 专注于特定的搜索领域和搜索需求,追求更好的用户体验。需要的硬件成本低、用户需求特定而查询方式多样 元搜索引擎 接受用户查询请求后,同时在多个搜索引擎上搜索,并将结果返回给用户(InfoSpace、Dogpile、Vivisimo、搜星) 集合式搜索引擎 类似元搜索引擎,区别在于它并非同时调用多个搜索引擎进行搜索,而是由用户从提供的若干搜索引擎中选择 其它 搜索引擎 – 发展历史(1) 1990年,Univ. of McGill师生开发出Archie是第一个自动索引互联网上匿名FTP网站文件的程序被公认为现代搜索引擎的鼻祖 1993年2月,Stanford University大学生的想法是分析字词关系,以对互联网上的大量信息作更有效的检索,开发出Excite曾以概念搜索闻名 1994年4月, Stanford University的杨致远和David Filo共同创办了Yahoo!。Yahoo目录开始支持简单的数据库搜索。数据是手工输入的,所以不能真正被归为搜索引擎,事实上只是一个可搜索的目录。 1994年7月,Carnegie Mellon的Mauldin创建了Lycos。Lycos提供了前缀匹配和字符相近限制,第一个在搜索结果中使用了网页自动摘要,而最大的优势还是它远胜过其它搜索引擎的数据量。 1995年,第一个元搜索引擎Metacrawler由Univ. of Washington的Selberg 和 Etzioni 开发的 ,但搜索效果始终不理想 搜索引擎 – 发展历史(2) 1995年,DEC的正式发布AltaVista。AltaVista是第一个支持自然语言搜索、第一个实现高级搜索语法的搜索引擎(如AND、 OR、 NOT等)。 1996年,sohu公司成立,制作中文网站分类目录, sohu于2004年8月创建独立域名的搜索网站“搜狗”,自称“第三代搜索引擎”。 1999年,Google完成了从Alpha版到Beta版的蜕变。Google根据Pagerank算法判断网页的重要性,使得搜索结果的相关性大大增强。Google公司的奇客(Geek)文化氛围、不作恶(Don’t be evil)的理念,为Google赢得了极高的口碑和品牌美誉 2000年,李彦宏与徐勇创立了百度Baidu,2001年10月22日正式发布Baidu搜索引擎,专注于中文搜索。 搜索引擎 – 工作原理 抓取网页   每个独立的搜索引擎都有自己的网页抓取程序Spider,它顺着网页中的超链接,连续地抓取网页。被抓取的网页被称之为网页快照。 由于互联网中超链接的应用很普遍,理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。 处理网页   搜索引擎抓到网页后,还要做大量的处理工作才能提供检索服务。其中最重要的是提取关键词和建立索引,其他还包括去除重复网页、分词(中文)、判断网页类型、分析超链接、计算网页的重要度/丰富度等。 提供检索服务   用户输入关键词进行检索,搜索引擎从索引数据库中找到匹配该关键词的网页;为了用户便于判断,除了网页标题和URL外,还会提供一段来自网页的摘要以及其他信息。 搜索引擎 – 系统组成 搜索器 在互联网中漫游,发现和搜集信息; 索引器 理解搜索器采集到的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表; 检索器 根据用户的查询在索引库中快速检索文档,进行相关度评价,对将要输出的结果排序,并能按用户的查询需求合理反馈信息; 用户接口 负责接纳用户查询、显示查询结果、提供个性化查询项。 搜索引擎 – 技术发展趋势 提高搜索引擎对用户检索提问的理解 对检索结果进行处理 (基于链接评价的、基于访问大众性的、去掉检索结果中多余信息) 确定搜集范围,细化主题 扩展搜索内容(多媒体!SoundHound!基于内容的检索!) 更好的用户体验(Google yes Yahoo!

文档评论(0)

youbika + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档