基于超链接搜索策略网络爬行器的设计与实现_第四章爬行器的设计与实现_40_57.pdfVIP

  • 1
  • 0
  • 约1.42万字
  • 约 18页
  • 2018-03-27 发布于河南
  • 举报

基于超链接搜索策略网络爬行器的设计与实现_第四章爬行器的设计与实现_40_57.pdf

基于超链接搜索策略网络爬行器的设计与实现_第四章爬行器的设计与实现_40_57

第四章 爬行器的设计与实现 第四章 爬行器的设计与实现 4.1 爬行器总体设计 构造爬行器有两种方式,第一种是把爬行器程序设计成为递归的程 序。第二种是编写一个非递归的爬行器程序,它维护一个要访问的网页列 表。当考虑使用哪一种方式时,要考虑是爬行器具有适于访问非常大的 Web 站点的功能。 4.1.1 递归程序 递归是在一个方法中调用它本身的程序设计技术。在某些项目中使用 递归构造爬行器是合理的方案。当需要重复做同样的基本任务或在处理先 前任务时,递归是相当有用的。以递归形式设计的爬行器程序的总体工作 过程的伪代码如下所示: void Spider(String url) { Download URL Parse URL For each URL found Call Spider(with found URL) End for Process the page just downloaded } 在这一段代码中,查看单独的一个Web 页的任务放在一个称为Spider 的方法中。在此,调用 Spider 方法来访问一个 URL

文档评论(0)

1亿VIP精品文档

相关文档