- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
网络爬虫总体介绍
网络爬虫
基本过程
挑战与建议
主要模块
网络爬虫的定义
附录:开源爬虫
3
网络爬虫
Crawler ,即Spider(网络爬虫),其定义有广义和狭义之分。狭义上指遵循标准的 http 协议,利用超链接和 Web 文档检索方法遍历万维网的软件程序;而广义的定义则是能遵循 http 协议,检索 Web 文档的软件都称之为网络爬虫。
网络爬虫是一个功能很强的自动提取网页的程序,是搜索引擎中最核心的部分,整个搜索引擎的素材库来源于网络爬虫的采集。其性能好坏直接影响着搜索引擎整体性能和处理速度。
4
网络爬虫基本过程
打开初始URL
解析WEB文档
采集网页
满足停止条件,结束采集
抽取新的URL加入
主要模块
网络爬虫基本过程如图所示,系统中主要模块如下:
控制器:是网络爬虫的中央控制器,它主要是负责根据系统传过来的URL链接,分配一线程,然后启动线程调用爬虫爬取网页的过程。
解析器:是负责网络爬虫的主要部分,其负责的工作主要有:对网页的文本进行处理,如过滤功能,抽取特殊HTML标签的功能,分析数据功能.下载网页数据,包括html、图片、doc、pdf、多媒体、动态网页等。
资源库:主要是用来存储网页中下载下来的数据记录的容器,并提供生成索引的目标源。中大型的数据库产品有:Oracle、Sql Server等
挑战
太多和主题不相关的信息
HTML页面结构各不相同
下载的海量资源如何处理
大型网站对爬虫的限制
建议
明确的需求及根据
尽量限定主题范围
尽量限定网页范围
限定网页更新的时间范围
获取的最好是结构化的数据
附录1:开源爬虫
Methabot是一个使用C语言编写的高速优化的,使用命令行方式运行的,在2-clause BSD许可下发布的网页检索器。它的主要的特性是高可配置性,模块化;它检索的目标可以是本地文件系统,HTTP或者FTP。
Nutch是一个使用java编写,在Apache许可下发行的爬虫。它可以用来连接Lucene的全文检索套件;
Pavuk是一个在GPL许可下发行的,使用命令行的WEB站点镜像工具,可以选择使用X11的图形界面。与wget和httprack相比,他有一系列先进的特性,如以正则表达式为基础的文件过滤规则和文件创建规则。
WebSPHINX(Miller and Bharat, 1998)是一个由java类库构成的,基于文本的搜索引擎。它使用多线程进行网页检索,html解析,拥有一个图形用户界面用来设置开始的种子URL和抽取下载的数据;
WIRE-网络信息检索环境(Baeza-Yates 和 Castillo, 2002)是一个使用C++编写,在GPL许可下发行的爬虫,内置了几种页面下载安排的策略,还有一个生成报告和统计资料的模块,所以,它主要用于网络特征的描述;
Web Crawler是一个为.net准备的开放源代码的网络检索器(C#编写)。
附录2:开源爬虫
Sherlock Holmes收集和检索本地和网络上的文本类数据(文本文件,网页),该项目由捷克门户网站中枢(Czech web portal Centrum)赞助并且主用商用于这里;它同时也使用在。
YaCy是一个基于P2P网络的免费的分布式搜索引擎。
Ruya是一个在广度优先方面表现优秀,基于等级抓取的开放源代码的网络爬虫。在英语和日语页面的抓取表现良好,它在GPL许可下发行,并且完全使用Python编写。按照robots.txt有一个延时的单网域延时爬虫。
Universal Information Crawler快速发展的网络爬虫,用于检索存储和分析数据;
Agent Kernel,当一个爬虫抓取时,用来进行安排,并发和存储的java框架。
是一个使用C#编写,需要SQL Server 2005支持的,在GPL许可下发行的多功能的开源的机器人。它可以用来下载,检索,存储包括电子邮件地址,文件,超链接,图片和网页在内的各种数据。
LWP:RobotUA(Langheinrich,2004)是一个在Perl5许可下发行的,可以优异的完成并行任务的 Perl类库构成的机器人。
您可能关注的文档
最近下载
- 成品油管道运输项目突发环境事件应急预案.pdf
- 浙江金华市金婺资源开发集团有限公司招聘笔试题库2023.pdf VIP
- 2025-2026学年沪书画版(五四学制)(2024)小学美术一年级上册(全册)教学设计(附目录P102).docx
- 九年级化学上册单元练习题2.doc VIP
- 20210810-海通国际-中国有色金属行业:决战元素周期表.pdf VIP
- 三峡大学2020年831电路考研真题.docx VIP
- YD 5178-2017-T 通信管道人孔和手孔图集.pptx VIP
- 学堂在线网课《如何写好科研论文》课后作业单元考核答案.docx VIP
- 三种人(工作票签发人、负责人、许可人)培训.ppt VIP
- 初中数学专题:有理数混合运算.doc VIP
文档评论(0)