多线程网页抓取程序的分析与改进.docVIP

下载本文档

15
0
约1.94万字
约 19页
2016-12-04 发布于贵州
举报

　多线程网页抓取程序的分析与改进.doc

　多线程网页抓取程序的分析与改进

一、GetWeb类源代码分析通过对程序代码分析，绘制程序执行流程概要如下：详细功能流程图如下（为了便于理解程序执行过程，流程图中的变量标识与源代码中的变量名并不对应）：详细功能流程图中变量标识与源代码中变量名的对应关系：流程图中的变量源程序中的变量数据类型（java）描述 startURL strHomePage String 主页地址 unProcessURLs arrUrls ArrayListString 未处理URL集合 maxDeep webDepth int 最大爬虫深度 DxxxURL deepUrls中的value值 int 某URL的深度值 threadNum 创建抓取线程时的循环变量i int 循环变量i maxThread intThreadNum int 最大线程数 GetWeb类的主要字段和方法的功能概述字段摘要 java.util.Hashtablejava.lang.String,java.lang.Integer allUrls 存储所有URL的编号 java.util.ArrayListjava.lang.String arrUrl 存储所有URL供建立索引 java.util.ArrayListjava.lang.String arrUrls 存储未处理的URL java.lang.String

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

多线程网页抓取程序的分析与改进.docVIP