网络爬虫技术总结_simon..docxVIP

下载本文档

49
0
约2.09千字
约 8页
2017-01-22 发布于重庆
举报
版权申诉

网络爬虫技术总结_simon..docx

1、本文档共8页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

网络爬虫技术总结_simon.

网络爬虫技术的研究作者：吴冲（simon_woo）1.网络爬虫的概念32.网络爬虫的工作流程33.Java技术与网络爬虫43.1java语言本身的特性43.2java的网络特性43.3 java与数据库44.网络爬虫的实现45.成熟的网络爬虫工具45.1 Nutch45.2 Larbin55.3 Heritrix56.分布式网络爬虫技术66.1主从式66.2并列式6网络爬虫的概念网络爬虫也叫网络蜘蛛，它是一个按照一定的规则自动提取网页程序，其会自动的通过网络抓取互联网上的网页，这种技术一般可能用来检查你的站点上所有的链接是否是都是有效的。当然，更为高级的技术是把网页中的相关数据保存下来，可以成为搜索引擎。搜索引擎使用网络爬虫寻找网络内容，网络上的HTML文档使用超链接连接了起来，就像织成了一张网，网络爬虫也叫网络蜘蛛，顺着这张网爬行，每到一个网页就用抓取程序将这个网页抓下来，将内容抽取出来，同时抽取超链接，作为进一步爬行的线索。网络爬虫总是要从某个起点开始爬，这个起点叫做种子，你可以告诉它，也可以到一些网址列表网站上获取。网络爬虫的工作流程Java技术与网络爬虫java语言本身的特性多线程，面向对象，分布式，与平台无关等java的网络特性Httpclient 和 HTMLParser对Http协议的支持3.3 java与数据库实现JDBC标准网络爬虫的实现成熟的网络爬虫工具5.1 Nutch开发语言：Java简介：Apache的子项目之一，属于Lucene项目下的子项目。Nutch是一个基于Lucene，类似Google的完整网络搜索引擎解决方案，基于Hadoop的分布式处理模型保证了系统的性能，类似Eclipse的插件机制保证了系统的可客户化，而且很容易集成到自己的应用之中。 5.2 Larbin开发语言：C++简介：larbin是一种开源的网络爬虫/网络蜘蛛，由法国的年轻人 Sébastien Ailleret独立开发。larbin目的是能够跟踪页面的url进行扩展的抓取，最后为搜索引擎提供广泛的数据来源。Larbin只是一个爬虫，也就是说larbin只抓取网页，至于如何parse的事情则由用户自己完成。另外，如何存储到数据库以及建立索引的事情 larbin也不提供。latbin最初的设计也是依据设计简单但是高度可配置性的原则，因此我们可以看到，一个简单的larbin的爬虫可以每天获取５００万的网页，非常高效。5.3 Heritrix开发语言：Java简介与Nutch比较Heritrix 和 Nutch。二者均为Java开源框架，Heritrix 是 SourceForge上的开源产品，Nutch为Apache的一个子项目，它们都称作网络爬虫/蜘蛛（ Web Crawler），它们实现的原理基本一致：深度遍历网站的资源，将这些资源抓取到本地，使用的方法都是分析网站每一个有效的URI，并提交Http请求，从而获得相应结果，生成本地文件及相应的日志信息等。 Heritrix 是个 archival crawler 用来获取完整的、精确的、站点内容的深度复制。包括获取图像以及其他非文本内容。抓取并存储相关的内容。对内容来者不拒，不对页面进行内容上的修改。重新爬行对相同的URL不针对先前的进行替换。爬虫通过Web用户界面启动、监控、调整，允许弹性的定义要获取的URL。二者的差异：Nutch 只获取并保存可索引的内容。Heritrix则是照单全收。力求保存页面原貌 ,Nutch 可以修剪内容，或者对内容格式进行转换。 Nutch 保存内容为数据库优化格式便于以后索引；刷新替换旧的内容。而Heritrix 是添加(追加)新的内容。 Nutch 从命令行运行、控制。Heritrix 有 Web 控制管理界面。 Nutch 的定制能力不够强，不过现在已经有了一定改进。Heritrix 可控制的参数更多。Heritrix提供的功能没有nutch多，有点整站下载的味道。既没有索引又没有解析，甚至对于重复爬取URL都处理不是很好。Heritrix的功能强大但是配置起来却有点麻烦。三者的比较一、从功能方面来说，Heritrix与Larbin的功能类似。都是一个纯粹的网络爬虫，提供网站的镜像下载。而Nutch是一个网络搜索引擎框架，爬取网页只是其功能的一部分。二、从分布式处理来说，Nutch支持分布式处理，而另外两个好像尚且还没有支持。三、从爬取的网页存储方式来说，Heritrix和 Larbin都是将爬取下来的内容保存为原始类型的内容。而Nutch是将内容保存到其特定格式的segment中去。四，对于爬取下来的内容的处理来说，Heritrix和 Larbin都是将爬取下来的内容不经处理直接保存为原始内容。而Nutch对文本进行了包括链接分析