第三周信息检索.ppt

  1. 1、本文档共48页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第三周信息检索

作业 百度,谷歌,常用搜索技巧大全 基于案例介绍 《中国档案分类法》介绍 第一个元搜索引擎:Metacrawler 元搜索引擎 用户提交搜索后,由元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎,并将从各独立搜索引擎返回的所有查询结果,集中起来处理后再返回给用户。 第一个元搜索引擎是Washington大学硕士生 Eric Selberg 和 Oren Etzioni开发的 Metacrawler。 第一个支持自然语言搜索的搜索引擎:AltaVista 1995年12月出现。 AltaVista是第一个支持自然语言搜索的搜索引擎。 2003年AltaVista(远景公司)被Overture收购,后者是Yahoo的子公司。 搜索引擎的后来之王:Google 1995年,佩奇来到斯坦福读博士,开始网络链接结构方面的研究项目BackRub。 之后,他和布林提出了PageRank技术,用于对网页评级。 之后用于搜索引擎,改写了搜索引擎的定义,建立了Google。 中文搜索引擎:百度 2000.1李彦宏创立了百度。 2001.8发布百度测试版。 目前是最大的中文搜索引 搜索引擎分类 按其工作方式主要可分为三种,分别是: —全文搜索引擎(Full Text Search Engine) —目录索引搜索引擎(Search Index/Directory) —元搜索引擎(Meta Search Engine) 全文搜索引擎 从搜索结果来源的角度,全文搜索引擎可细分为两种: 一种是拥有自己的检索程序(Indexer),俗称“蜘蛛”(Spider)程序或“机器人”(Robot)程序,并自建网页数据库,搜索结果直接从自身的数据库中调用,如baidu,google引擎。它们是真正的搜索引擎。 另一种则是租用其他引擎的数据库,并按自定的格式排列搜索结果,如Lycos引擎。 目录索引搜索引擎 目录索引在严格意义上算不上是真正的搜索引擎,仅仅是按目录分类的网站链接列表而已。 用户完全可以不用进行关键词(Keywords)查询,仅靠分类目录也可找到需要的信息。 目录索引中最具代表性是Yahoo雅虎。 国内的搜狐、新浪、网易搜索也都属于这一类。 目录搜索引擎 以人工方式或半自动方式搜集信息。信息准确、导航质量较高。 缺点是需要人工介入、维护量大、信息量少、信息更新不及时。 元搜索引擎(集成搜索引擎) 元搜索引擎在接受用户查询请求时,同时在其他多个引擎上进行搜索,并将结果返回给用户。 著名的元搜索引擎有InfoSpace、Dogpile、 Vivisimo等(元搜索引擎列表)。 中文元搜索引擎中具代表性的有搜星。 元搜索引擎 元搜索引擎自身不采集信息,没有信息库,同时检索多个独立搜索引擎,以统一格式输出结果。 返回信息量大,用时短。 缺点是不能充分使用所有搜索引擎的功能。 4.5 网络搜索技术 2.搜索引擎的结构 (1)搜索器 其主要功能是在互联网中漫游,发现和搜集信息。它通常是一个遵循一定协议的计算机程序,即蜘蛛程序(Spider)。它日夜不停地运转,要尽可能多、尽可能快地抓取网页,搜集各类信息。 在Internet中信息是用HTML语言描述的,不同的HTML页面通过其中所包含的超级链接互相联接,这些超级链接以URL(Uniform Resource Locator,信息资源的标准通用地址)的方式被表示出来。Spider程序从一个起始的URL集开始,顺着URL中的超链接(Hyper Link) 以宽度优先、深度优先或启发式方式循环地在互联网中搜集信息。 搜索引擎的结构 (2)分析器 分析器即分析程序,功能是理解搜索器所搜索的信息。它通过一些特殊算法,从Spider程序抓回的网页源文件中抽取出索引项。索引项有形式索引项和内容索引项两种:形式索引项如作者名、URL、更新时间、编码、长度、链接流行度(Link Popularity)等等;内容索引项是用来反映文档主题内容的,如关键词及其权重、短语、单词等等。内容索引项可以分为单词索引项和多词索引项(或称词组索引项)两种。单词索引项对于英文来讲是英语单词,比较容易提取,因为单词之间有天然的分隔符(空格);对于中文等连续书写的语言,必须进行词语的切分。还要给内容索引项赋予不同权值,以表明这些与网页内容的相关程度,以判断网页内容。 搜索引擎的结构 (3)索引器 索引器将生成从关键词到URL的关系索引表。 索引表一般使用某种形式的倒排表(Inversion List),即由索引项查找相应的URL。索引表也可能要记录索引项在文档中出现的位置,以便检索器计算索引项之间的相邻关系或位置关系(Proximity),并以特定的数据

文档评论(0)

xcs88858 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8130065136000003

1亿VIP精品文档

相关文档