- 6
- 0
- 约9.44万字
- 约 59页
- 2016-05-27 发布于辽宁
- 举报
本科生毕业论文nutch爬虫系统分析设计论文
Nutch分析
1 Nutch简介 2
1.1 nutch体系结构 2
2 抓取部分 3
2.1 爬虫的数据结构及含义 3
2.2 抓取目录分析 4
2.3 抓取过程概述 4
2.4 抓取过程分析 5
2.4.1 inject方法 6
2.4.2 generate方法 12
2.4.3 fetch 方法 14
2.4.4 parse方法 16
2.4.5 update方法 16
2.4.6 invert方法 19
2.4.7 index方法 23
2.4.8 dedup方法 26
2.4.9 merge方法 30
3 配置文件分析 31
3.1 nutch-default.xml分析 31
3.1.1 !-- file properties -- 31
3.1.2 !-- HTTP properties -- 32
3.1.3 !-- FTP properties -- 35
3.1.4 !-- web db properties -- 37
3.1.5 !-- generate properties -- 41
3.1.6 !-- fetcher properties -- 42
3.1.7 !-- indexer properties -- 43
3.1.8 !-- indexingfilter plugin properties -- 45
3.1.9 !-- analysi
原创力文档

文档评论(0)