网络数据爬虫调查结果.docxVIP

下载本文档

31
0
约4.22千字
约 5页
2017-05-11 发布于安徽
举报
版权申诉

网络数据爬虫调查结果.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

网络数据爬虫调查结果.docx

对网页爬虫的调查结果调查人：王杨斌对于爬虫工具以及代码的调查，主要调查的内容是关于PHP和Java的工具代码。 1. Java类爬虫 1.1. JAVA爬虫 WebCollector 爬虫简介： WebCollector [[] /p/webcollector ] 是一个无须配置、便于二次开发的JAVA爬虫框架（内核），它提供精简的的API，只需少量代码即可实现一个功能强大的爬虫。爬虫内核： WebCollector致力于维护一个稳定、可扩的爬虫内核，便于开发者进行灵活的二次开发。内核具有很强劲。 1.2. Web-Harvest Web-Harvest [[] /p/web-harvest ] 是一个用Java语言编写的是网络爬虫工具，应用比较广泛。其可以收集指定的页面并从这些页面中提取有用的数据。 Web-Harvest是一个Java开源Web数据抽取工具。它能够收集指定的Web页面并从这些页面中提取有用的数据。Web-Harvest主要是运用了像XSLT,XQuery,正则表达式等这些技术来实现对text/xml的操作。 1.3. Java网页爬虫 JSpider JSpider [[] /p/jspider ] 是一个用Java实现的WebSpider。JSpider 的行为是由配置文件具体配置的，比如采用什么插件，结果存储方式等等都在conf\[ConfigName]\目录下设置。JSpider默认的配置种类很少，用途也不大。但是JSpider非常容易扩展，可以利用它开发强大的网页抓取与数据分析工具。要做到这些，需要对JSpider的原理有深入的了解，然后根据自己的需求开发插件，撰写配置文件。 1.4. web爬虫 Heritrix Heritrix [[] /p/heritrix ] 是一个开源，可扩展的web爬虫项目。用户可以使用它来从网上抓取想要的资源。Heritrix设计成严格按照robots.txt文件的排除指示和META robots标签。其最出色之处在于它良好的可扩展性,方便用户实现自己的抓取逻辑。Heritrix是一个爬虫框架，其组织结构包含了整个组件和抓取流程。 1.5. webmagic logo 垂直爬虫 webmagic Webmagic [[] /p/webmagic ] 的是一个无须配置、便于二次开发的爬虫框架，它提供简单灵活的API，只需少量代码即可实现一个爬虫。webmagic采用完全模块化的设计，功能覆盖整个爬虫的生命周期(链接提取、页面下载、内容抽取、持久化)，支持多线程抓取，分布式抓取，并支持自动重试、自定义UA/cookie等功能。 1.6. Java多线程Web爬虫 Crawler4j Crawler4j [[] /p/crawler4j ] 是一个开源的Java类库提供一个用于抓取Web页面的简单接口。可以利用它来构建一个多线程的Web爬虫。 1.7. Java网络蜘蛛/网络爬虫 Spiderman Spiderman [[] /p/spiderman ] 是一个基于微内核+插件式架构的网络蜘蛛，它的目标是通过简单的方法就能将复杂的目标网页信息抓取并解析为自己所需要的业务数据。 2. C/C++ 类爬虫 2.1. 网站爬虫 Grub Next Generation Grub Next Generation [[] /p/grub+next+generation ] 是一个分布式的网页爬虫系统，包含客户端和服务器可以用来维护网页的索引。其开发语言： C/C++ Perl C#。 2.2. 网页爬虫 Methanol Methanol [[] /p/methanol ] 是一个模块化的可定制的网页爬虫软件，主要的优点是速度快。 2.3. 网络爬虫/网络蜘蛛 larbin Larbin [[] /p/larbin ] 是一种开源的网络爬虫/网络蜘蛛，由法国的年轻人 Sébastien Ailleret独立开发。larbin目的是能够跟踪页面的url进行扩展的抓取，最后为搜索引擎提供广泛的数据来源。Larbin只是一个爬虫，也就是说larbin只抓取网页，至于如何parse的事情则由用户自己完成。另外，如何存储到数据库以及建立索引的事情 larbin也不提供。一个简单的larbin的爬虫可以每天获取５００万的网页。利用larbin，我们可以轻易的获取/确定单个网站的所有链接，甚至可以镜像一个网站；也可以用它建立url 列表群，例如针对所有的网页进行 url retrive后，进行xml的联结的获取。或者是 mp3，或者定制larbin，可以作为搜索引擎的信息的来源。 2.4. 死链接检查软件 Xenu Xenu Link Sleuth [[] /