无比强大的网络爬虫new8.pptxVIP

下载本文档

1
0
约3.52千字
约 37页
2018-05-29 发布于江苏
举报
版权申诉

无比强大的网络爬虫new8.pptx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

无比强大的网络爬虫new8

无比强大的网络爬虫 ; 主要内容：; 网络爬虫是一个自动提取网页的程序，它为搜索引擎从万维网上下载网页，是搜索引擎的重要组成。; 聚焦爬虫的工作流程较为复杂，需要根据一定的网页分析算法过滤与主题无关的链接，保留有用的链接并将其放入等待抓取的URL队列。然后，它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL，并重复上述过程，直到达到系统的某一条件时停止，如图所示。 ; 另外，所有被爬虫抓取的网页将会被系统存贮，进行一定的分析、过滤，并建立索引，以便之后的查询和检索；对于聚焦爬虫来说，这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。 相对于通用网络爬虫，聚焦爬虫还需要解决三个主要问题：(1) 对抓取目标的描述或定义； (2) 对网页或数据的分析与过滤； (3) 对URL的搜索策略。 Heritrix既是一种开源的聚焦网络爬虫。; Heritrix工程始于2003年初，IA的目的是开发一个特殊的爬虫，对网上的资源进行归档，建立网络数字图书馆。在过去的6年里，IA已经建立了400TB的数据。 IA期望他们的crawler包含以下几种：宽带爬虫：能够以更高的带宽去站点爬。主题爬虫：集中于被选择的问题。持续爬虫：不仅仅爬更当前的网页还负责爬日后更新的网页。实验爬虫：对爬虫技术进行实验，以决定该爬什么，以及对不同协议的爬虫爬行结果进行分析的。 ;Heritrix是一个爬虫框架，可加入一些可互换的组件。它的执行是递归进行的，主要有以下几步：在预定的URL（ Uniform Resource Locator ）中选择一个。获取URL 分析，归档结果选择已经发现的感兴趣的URL。加入预定队列。标记已经处理过的URL ; 左图展现了heritrx爬取网页的流程，每次只获取一张网页，并不考虑充分利用它的资源。由爬虫维护的尚未访问URL列表被称为队列（Frontier）。该队列初始化的时候仅存放由用户或其他程序提供的种子URL。每次程序的主循环中，爬虫先从队列中取出下一个URL，通过HTTP协议将对应的网页爬取下来，然后解析内容，并且提取出包含的URL，将其中新发现的URL追加到队列中。最后将网页存???到本地磁盘的网页库中。爬取过程在积累到一定数量网页时即可终止；或者在队列为空的时候终止。;范围部件：主要按照规则决定将哪个URL入队。边界部件：跟踪哪个预定的URL将被收集，和已经被收集的URL，选择下一个 URL，剔除已经处理过的URL。处理器链：包含若干处理器获取URL，分析结果，将它们传回给边界部件。 ;Heritrix 1.14.3包含以下关键特性：;四、Heritrix的使用; 在下载完Heritrix的完整开发包后，解压到本地的一个目录下，其中，Heritrix所用到的工具类库都存在lib下，heritrix-1.14.0.jar是Heritrix的jar包。在Heritrix目录下有一个conf目录，其中包含了一个很重要的文件pertier.; 在perties中配置了大量与Heritrix运行息息相关的参数，这些参数主要是配置了Heritrix运行时的一些默认工具类，WebU1的启动参数，以及Heritrix的日志格式等。当第一次运行Heritrix 时，只要修改该文件，为其加入WebU i登录名和密码。; Heritrix的主类为org.archive.crawler.Heritrix,运行它就可以启动Heritrix。在运行它的时候，需要为其加上lib目录下的所有jar包。以下是在命令行cmd中启动Heritrix时所使用的批处理文件。; 在上面的批处理文件中，将heritrix所用到的所有的第三方jar包都写进了classpath中，同时执行了org.archive.crawler.Heritrix这个主类。; 通过浏览器访问http://localhost:8080，就可以打开Heritrix的WebUI了。如图10-4所示。; 在这个登录界面，输入刚才在Hperties中预设的WebUI的用户名和密码，就可以进入如图10-5所示的Heritrix的WebUI的主界面。; 当看到这个页面的时候，就说明Heritrix已经成功的启动了。在页面的中央有一道状态栏，用于标识当前正在运行的抓取任务。如图10-6所示：; 在任务创建页面中，有4种创建任务的方式，如图10-19所示，具体含义如下。;（3）单击With defaults链接，创建一个新的抓取任务，如图所示。;设置抓取时的处理链在图中，seeds文本框下有一排按钮，单击“Mod