基于超链接搜索策略网络爬行器的设计与实现_第四章爬行器的设计与实现_40_57.pdfVIP

下载本文档

1
0
约1.42万字
约 18页
2018-03-27 发布于河南
举报

基于超链接搜索策略网络爬行器的设计与实现_第四章爬行器的设计与实现_40_57.pdf

基于超链接搜索策略网络爬行器的设计与实现_第四章爬行器的设计与实现_40_57

第四章爬行器的设计与实现第四章爬行器的设计与实现 4.1 爬行器总体设计构造爬行器有两种方式，第一种是把爬行器程序设计成为递归的程序。第二种是编写一个非递归的爬行器程序，它维护一个要访问的网页列表。当考虑使用哪一种方式时，要考虑是爬行器具有适于访问非常大的 Web 站点的功能。 4.1.1 递归程序递归是在一个方法中调用它本身的程序设计技术。在某些项目中使用递归构造爬行器是合理的方案。当需要重复做同样的基本任务或在处理先前任务时，递归是相当有用的。以递归形式设计的爬行器程序的总体工作过程的伪代码如下所示： void Spider(String url) { Download URL Parse URL For each URL found Call Spider(with found URL) End for Process the page just downloaded } 在这一段代码中，查看单独的一个Web 页的任务放在一个称为Spider 的方法中。在此，调用 Spider 方法来访问一个 URL

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

基于超链接搜索策略网络爬行器的设计与实现_第四章爬行器的设计与实现_40_57.pdfVIP