网络爬虫总体介绍.pptxVIP

下载本文档

23
0
约1.75千字
约 10页
2017-09-05 发布于浙江
举报
版权申诉

网络爬虫总体介绍.pptx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

网络爬虫总体介绍

网络爬虫基本过程挑战与建议主要模块网络爬虫的定义附录：开源爬虫 3 网络爬虫 Crawler ，即Spider（网络爬虫），其定义有广义和狭义之分。狭义上指遵循标准的 http 协议，利用超链接和 Web 文档检索方法遍历万维网的软件程序；而广义的定义则是能遵循 http 协议，检索 Web 文档的软件都称之为网络爬虫。网络爬虫是一个功能很强的自动提取网页的程序，是搜索引擎中最核心的部分，整个搜索引擎的素材库来源于网络爬虫的采集。其性能好坏直接影响着搜索引擎整体性能和处理速度。 4 网络爬虫基本过程打开初始URL 解析WEB文档采集网页满足停止条件，结束采集抽取新的URL加入主要模块网络爬虫基本过程如图所示，系统中主要模块如下：控制器：是网络爬虫的中央控制器，它主要是负责根据系统传过来的URL链接，分配一线程，然后启动线程调用爬虫爬取网页的过程。解析器：是负责网络爬虫的主要部分，其负责的工作主要有：对网页的文本进行处理，如过滤功能，抽取特殊HTML标签的功能，分析数据功能.下载网页数据,包括html、图片、doc、pdf、多媒体、动态网页等。资源库：主要是用来存储网页中下载下来的数据记录的容器，并提供生成索引的目标源。中大型的数据库产品有：Oracle、Sql Server等挑战太多和主题不相关的信息 HTML页面结构各不相同下载的海量资源如何处理大型网站对爬虫的限制建议明确的需求及根据尽量限定主题范围尽量限定网页范围限定网页更新的时间范围获取的最好是结构化的数据附录1：开源爬虫  Methabot是一个使用C语言编写的高速优化的，使用命令行方式运行的，在2-clause BSD许可下发布的网页检索器。它的主要的特性是高可配置性，模块化；它检索的目标可以是本地文件系统，HTTP或者FTP。  Nutch是一个使用java编写，在Apache许可下发行的爬虫。它可以用来连接Lucene的全文检索套件；  Pavuk是一个在GPL许可下发行的，使用命令行的WEB站点镜像工具，可以选择使用X11的图形界面。与wget和httprack相比，他有一系列先进的特性，如以正则表达式为基础的文件过滤规则和文件创建规则。  WebSPHINX(Miller and Bharat, 1998)是一个由java类库构成的，基于文本的搜索引擎。它使用多线程进行网页检索，html解析，拥有一个图形用户界面用来设置开始的种子URL和抽取下载的数据；  WIRE-网络信息检索环境(Baeza-Yates 和 Castillo, 2002)是一个使用C++编写，在GPL许可下发行的爬虫，内置了几种页面下载安排的策略，还有一个生成报告和统计资料的模块，所以，它主要用于网络特征的描述；  Web Crawler是一个为.net准备的开放源代码的网络检索器（C#编写）。附录2：开源爬虫  Sherlock Holmes收集和检索本地和网络上的文本类数据（文本文件，网页），该项目由捷克门户网站中枢（Czech web portal Centrum）赞助并且主用商用于这里；它同时也使用在。  YaCy是一个基于P2P网络的免费的分布式搜索引擎。  Ruya是一个在广度优先方面表现优秀，基于等级抓取的开放源代码的网络爬虫。在英语和日语页面的抓取表现良好，它在GPL许可下发行，并且完全使用Python编写。按照robots.txt有一个延时的单网域延时爬虫。  Universal Information Crawler快速发展的网络爬虫，用于检索存储和分析数据；  Agent Kernel，当一个爬虫抓取时，用来进行安排，并发和存储的java框架。  是一个使用C#编写，需要SQL Server 2005支持的，在GPL许可下发行的多功能的开源的机器人。它可以用来下载，检索，存储包括电子邮件地址，文件，超链接，图片和网页在内的各种数据。  LWP：RobotUA(Langheinrich,2004)是一个在Perl5许可下发行的，可以优异的完成并行任务的 Perl类库构成的机器人。