多线程网页抓取程序的分析与改进.docVIP

  • 15
  • 0
  • 约1.94万字
  • 约 19页
  • 2016-12-04 发布于贵州
  • 举报

 多线程网页抓取程序的分析与改进.doc

 多线程网页抓取程序的分析与改进

一、GetWeb类源代码分析 通过对程序代码分析,绘制程序执行流程概要如下: 详细功能流程图如下(为了便于理解程序执行过程,流程图中的变量标识与源代码中的变量名并不对应): 详细功能流程图中变量标识与源代码中变量名的对应关系: 流程图中的变量 源程序中的变量 数据类型(java) 描述 startURL strHomePage String 主页地址 unProcessURLs arrUrls ArrayListString 未处理URL集合 maxDeep webDepth int 最大爬虫深度 DxxxURL deepUrls中的value值 int 某URL的深度值 threadNum 创建抓取线程时的循环变量i int 循环变量i maxThread intThreadNum int 最大线程数 GetWeb类的主要字段和方法的功能概述 字段摘要 java.util.Hashtablejava.lang.String,java.lang.Integer allUrls 存储所有URL的编号 java.util.ArrayListjava.lang.String arrUrl 存储所有URL供建立索引 java.util.ArrayListjava.lang.String arrUrls 存储未处理的URL java.lang.String

文档评论(0)

1亿VIP精品文档

相关文档