- 2
- 0
- 约9.48万字
- 约 59页
- 2017-04-12 发布于辽宁
- 举报
nutch爬虫系统分析本科论文
Nutch分析
1 Nutch简介 2
1.1 nutch体系结构 2
2 抓取部分 3
2.1 爬虫的数据结构及含义 3
2.2 抓取目录分析 4
2.3 抓取过程概述 4
2.4 抓取过程分析 5
2.4.1 inject方法 6
2.4.2 generate方法 12
2.4.3 fetch 方法 14
2.4.4 parse方法 16
2.4.5 update方法 16
2.4.6 invert方法 19
2.4.7 index方法 23
2.4.8 dedup方法 26
2.4.9 merge方法 30
3 配置文件分析 31
3.1 nutch-default.xml分析 31
3.1.1 !-- file properties -- 31
3.1.2 !-- HTTP properties -- 32
3.1.3 !-- FTP properties -- 35
3.1.4 !-- web db properties -- 37
3.1.5 !-- generate properties -- 41
3.1.6 !-- fetcher properties -- 42
3.1.7 !-- indexer properties -- 43
3.1.8 !-- indexingfilter plugin properties -- 45
3.1.9 !-- analysis properties -- 45
3.1.10 !-- searcher properties -- 45
3.1.11 !-- URL normalizer properties -- 48
3.1.12 !-- mime properties -- 48
3.1.13 !-- plugin properties -- 49
3.1.14 !-- parser properties -- 49
3.1.15 !-- urlfilter plugin properties -- 51
3.1.16 !-- scoring filters properties -- 52
3.1.17 !-- clustering extension properties -- 52
3.1.18 !-- ontology extension properties -- 53
3.1.19 !-- query-basic plugin properties -- 53
3.1.20 !-- creative-commons plugin properties -- 54
3.1.21 !-- query-more plugin properties -- 55
3.1.22 !-- microformats-reltag plugin properties -- 55
3.1.23 !-- language-identifier plugin properties -- 55
3.1.24 !-- Temporary Hadoop 0.17.x workaround. -- 56
3.1.25 !-- response writer properties -- 56
3.2 regex-urlfilter.txt解析 58
3.3 regex-normalize.xml解析 58
3.4 总结 59
4 参考资源 59
Nutch简介
nutch体系结构
抓取部分
爬虫的数据结构及含义
爬虫系统是由Nutch的爬虫工具驱动的。并且把构建和维护一些数据结构类型同一系列工具关联起来:包括web database、一系列的segment和index。接下来我们将详细描述他们。
三者的物理文件分别存储在爬行结果目录下的crawldb文件夹内,segments文件夹和index文件夹内。那么三者分别存储的信息是什么呢?
Web database,也叫WebDB,其中存储的是爬虫所抓取网页之间的链接结构信息,它只在爬虫Crawler工作中使用而和Searcher的工作没有任何关系。WebDB内存储了两种实体的信息:page和link。Page实体通过描述网络上一个网页的特征信息来表征一个实际的网页,因为网页有很多个需要描述,WebDB中通过网页的URL和网页内容的MD5两种索引方法对这些网页实体进行了索引。Page实体描述的网页特征主要包括网页内的 link数目,抓取此网页的时间等相关抓取信息,对此网页的重要度评分等。同样的,Link实体描述的是两个page实体之间的链接关系。WebDB构成了一个所抓取网页的链接结构图,这个图中Page实体是图的结点,而Link实体则代表图的边。
一次爬行会产生很多个segment,每个segment内存储的是爬虫Cra
您可能关注的文档
- 468q发动机缸体立式组合钻床液压系统、液压站及plc设计本科论文.doc
- 492发动机曲轴箱铣主轴孔卡瓦槽夹具设计本科论文.doc
- 500td选矿厂初步设计说明书大学论文.doc
- 0530输电杆塔雷击方式判断设计大学论文.doc
- 500亩虻链农业产业化示范基地建设项目商业计划书本科论文.doc
- 500kw风电机增速器设计方案本科论文.doc
- 600mw火电机组送风控制系统本科论文.doc
- 600mw中间再热机组汽轮机设计课程设计正文大学论文.doc
- 800万吨年混合原油常减压蒸装置设计论文本科论文.doc
- 600mw中间再热机组汽轮机设计课程设计正文论文大学论文.doc
- 小区绿化施工协议书.docx
- 墙面施工协议书.docx
- 1 古诗二首(课件)--2025-2026学年统编版语文二年级下册.pptx
- (2026春新版)部编版八年级道德与法治下册《3.1《公民基本权利》PPT课件.pptx
- (2026春新版)部编版八年级道德与法治下册《4.3《依法履行义务》PPT课件.pptx
- (2026春新版)部编版八年级道德与法治下册《6.2《按劳分配为主体、多种分配方式并存》PPT课件.pptx
- (2026春新版)部编版八年级道德与法治下册《6.1《公有制为主体、多种所有制经济共同发展》PPT课件.pptx
- 初三教学管理交流发言稿.docx
- 小学生课外阅读总结.docx
- 餐饮门店夜经济运营的社会责任报告(夜间贡献)撰写流程试题库及答案.doc
最近下载
- ISO9001-2026质量管理体系标准版中英文及变化点解析.pdf VIP
- HGT 21629-1999 管架标准图(四).docx VIP
- 广州市民办学校申办审批表.doc VIP
- 无人机测绘技术与应用课件21--无人机驾驶员职业规划.ppt
- 2025年袋鼠数学LevelB试卷及答案.pdf VIP
- 《重症凝血病标准化评估中国专家共识(2025)》解读PPT课件.pptx VIP
- 《动物防疫法》培训解读课件.pptx VIP
- 无人机测绘技术与应用课件20--无人机飞行原理.ppt
- 先进控制技术及其应用.docx VIP
- 2025-2026学年济南版(2024)初中生物八年级上册《血液是物质运输的载体》教学设计.docx
原创力文档

文档评论(0)