爬行器-中國科學院國家科學圖書館-中國科學院文獻情報中心.ppt

下载文档 降价啦

5
0
约1.42万字
约 102页
2017-04-03 发布于天津
举报
版权申诉
保障服务

爬行器-中國科學院國家科學圖書館-中國科學院文獻情報中心.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

Web 搜索 1. Web搜索概述 2. Web搜索系统结构 3. Web搜索相关技术 4. 基于主题的Web搜索 5. 搜索引擎实例分析互连网的发展据2011年1月公布的第27次中国互连网络发展状况调查报告统计，中国大陆网民数和IPv4数已分别达到4.57亿和2.78亿。网络资源的发展静态网页（浅层网络资源） Google 2005年底80亿张 2008年4月5日用”the”搜索Google，相关记录录：112亿。 2009年4月8日用“the”搜Google有124.5亿页。 2010年4月8日用”the”搜索有190亿网页。 2011年3月26日用”the”搜索有252亿网页。网络资源的发展数据库资源（深层网络资源）数量大，根据BrightPlanet的研究报告，网络数据库资源约是静态网页资源的500倍。增长速度快，同期增长速度是浅层资源9倍。资源稳定，质量高，不但包括大量经对等评审的学术论文，而且一般资源也都经过专业人士的筛选、著录、标引，内容可参考性更强，格式更规范搜索引擎被广泛利用 OCLC 2005年调研大学生信息获取方式： 72%用户选择搜索引擎 24%用户选择图书馆 4%用户选择书店 Hitwise 3月19日统计 Top 10 Websites Hitwise 3月19日统计 Top 10 Search Engines 1.1 Web搜索分类根据技术原理分依据搜索范围分依据爬行器特征分根据功能特点分 1.1.1 Web搜索分类根据技术原理不同，搜索引擎可以分为：爬行器式搜索引擎目录式搜索引擎元搜索引擎爬行器式搜索引擎爬行器（Crawler）爬行器是一种可以在Web上漫游并发现、下载页面的计算机程序，也称为蜘蛛（Spider）、机器人（Robot）。爬行器自动在网上爬行，将搜索到的页面自动下载加入到本地数据库中，经索引后提供用户检索服务。特点信息覆盖范围广、自动化程度高、维护费用少；返回信息过多，包括大量无关信息。具有代表性的爬行器式搜索引擎国外：Google、Lycos等国内：百度、天网等。目录式搜索引擎目录式搜索引擎特点采用人工或半自动方式搜索、采集以及编辑、组织信息，支持分类浏览、关键词检索；因为加入了人的智力劳动，所以信息准确、导航质量高；缺点是需要人工介入、维护量大、信息更新不及时。代表性引擎 Yahoo、Opendirectory、Looksmart等。爬行器式搜索也提供目录式服务，如Google的网页目录元搜索引擎元搜索引擎（Meta Search Engine）自己没有网页数据库，当用户提交一个查询请求时，它把用户查询转发给多个其他搜索引擎，返回多个结果，进行归并后返回给用户。多数元搜索引擎只提取出每个搜索引擎的结果中前面10～50条信息。优点同时覆盖多个搜索引擎，缺点是无法使用特定搜索引擎的特殊功能，用户需要做更多的筛选。主要代表 ixQuick、SurfWax、Dogpile、Vivisimo等。 1.1.2 Web搜索分类依据搜索范围不同，Web搜索分两类：普通搜索引擎(general-purpose search engines) 普通搜索引擎的目标是覆盖所有领域的信息资源最負盛名的是Google等。专业搜索引擎(domain-specific search engines) 专业搜索引擎为满足特定需求而开发的，它是一种基于特定条件的信息搜索引擎，可以针对某一主題（如纳米技术）、某一地区（如台湾）、某一类型的信息（如个人简历、主页、电影、音乐、FAQ等）或某一特定群体（如小学生）等。 CiteSeer 它是一个专门收集有关计算机科学方面的PDF、PS格式的学术期刊和会议论文资料的搜索引擎。 GoogleScholar、GoogleBook 1.1.3 搜索引擎分类依据爬行器特征，搜索引擎可分：基于通用爬行器(Scalable Web Crawler)的搜索引擎基于主题爬行器(Focused Web Crawler)的搜索引擎基于个性化爬行器(Customized Web Crawler)的搜索引擎基于智能代理(Agent based Web Crawler)的搜索引擎基于可迁移爬行器(Relocatable Web Crawler)的搜索引擎面向深层Web信息(Deep Web Crawler)的搜索引擎主题爬行器主题爬行器（Focused Crawler）主题爬行器爬行有限的网络空间，有选择性地搜寻与指定主题相关的页面。基本原则尽可能多地下载与指定主题相关的网页尽可能少地下载与指定主题无关的网页主题描述方式关键词样本文档 Ontol