- 1、本文档共59页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
nutch爬虫系统分析设计___论文
Nutch分析
1 Nutch简介 2
1.1 nutch体系结构 2
2 抓取部分 3
2.1 爬虫的数据结构及含义 3
2.2 抓取目录分析 4
2.3 抓取过程概述 4
2.4 抓取过程分析 5
2.4.1 inject方法 6
2.4.2 generate方法 12
2.4.3 fetch 方法 14
2.4.4 parse方法 16
2.4.5 update方法 16
2.4.6 invert方法 19
2.4.7 index方法 23
2.4.8 dedup方法 26
2.4.9 merge方法 30
3 配置文件分析 31
3.1 nutch-default.xml分析 31
3.1.1 !-- file properties -- 31
3.1.2 !-- HTTP properties -- 32
3.1.3 !-- FTP properties -- 35
3.1.4 !-- web db properties -- 37
3.1.5 !-- generate properties -- 41
3.1.6 !-- fetcher properties -- 42
3.1.7 !-- indexer properties -- 43
3.1.8 !-- indexingfilter plugin properties -- 45
3.1.9 !-- analysis properties -- 45
3.1.10 !-- searcher properties -- 45
3.1.11 !-- URL normalizer properties -- 48
3.1.12 !-- mime properties -- 48
3.1.13 !-- plugin properties -- 49
3.1.14 !-- parser properties -- 49
3.1.15 !-- urlfilter plugin properties -- 51
3.1.16 !-- scoring filters properties -- 52
3.1.17 !-- clustering extension properties -- 52
3.1.18 !-- ontology extension properties -- 53
3.1.19 !-- query-basic plugin properties -- 53
3.1.20 !-- creative-commons plugin properties -- 54
3.1.21 !-- query-more plugin properties -- 55
3.1.22 !-- microformats-reltag plugin properties -- 55
3.1.23 !-- language-identifier plugin properties -- 55
3.1.24 !-- Temporary Hadoop 0.17.x workaround. -- 56
3.1.25 !-- response writer properties -- 56
3.2 regex-urlfilter.txt解析 58
3.3 regex-normalize.xml解析 58
3.4 总结 59
4 参考资源 59
Nutch简介
nutch体系结构
抓取部分
爬虫的数据结构及含义
爬虫系统是由Nutch的爬虫工具驱动的。并且把构建和维护一些数据结构类型同一系列工具关联起来:包括web database、一系列的segment和index。接下来我们将详细描述他们。
三者的物理文件分别存储在爬行结果目录下的crawldb文件夹内,segments文件夹和index文件夹内。那么三者分别存储的信息是什么呢?
Web database,也叫WebDB,其中存储的是爬虫所抓取网页之间的链接结构信息,它只在爬虫Crawler工作中使用而和Searcher的工作没有任何关系。WebDB内存储了两种实体的信息:page和link。Page实体通过描述网络上一个网页的特征信息来表征一个实际的网页,因为网页有很多个需要描述,WebDB中通过网页的URL和网页内容的MD5两种索引方法对这些网页实体进行了索引。Page实体描述的网页特征主要包括网页内的 link数目,抓取此网页的时间等相关抓取信息,对此网页的重要度评分等。同样的,Link实体描述的是两个page实体之间的链接关系。WebDB构成了一个所抓取网页的链接结构图,这个图中Page实体是图的结点,而Link实体则代表图的边。
一次爬行会产生很多个segment,每个segment内存储的是爬虫Crawler在单独一次抓取
您可能关注的文档
- 400万吨年矿井通风系统设计及瓦斯抽放设计大学毕业(设计)论文说明书.doc
- 480柴油机气缸盖设计大学毕业(设计)论文说明书.doc
- 500吨辣椒天然红色素、辣椒碱加工项目投资建设可行性论证研究报告.doc
- 630kw火筒炉设计大学毕业(设计)论文说明书.doc
- 900吨天稀硝酸及配套10万吨年浓硝酸项目___论文循环水地管安装、防腐工程___论文施工组织.doc
- 1000吨果品气调库建设项目投资建设可行性论证研究报告.doc
- 2000吨年pet瓶的回收造粒生产线的设计本科生毕业(设计)论文.doc
- 2000亩生态紫甘薯种植基地建设项目投资建设可行性论证研究报告.doc
- 2000亩新品种生态葡萄种植基地建设项目投资建设可行性论证研究报告.doc
- 2000亩紫甘薯无公害种植基地建设项目投资建设可行性论证研究报告.doc
- pecvd___论文siox-sinx叠层钝化膜及等离子体氧化的研究大学本科毕业(设计)论文.doc
- pf455s插秧机及其侧离合器手柄的探讨和改善设计—大学毕业(设计)论文说明书.doc
- ph测试仪的设计大学毕业(设计)论文生毕业(设计)论文.doc
- php建设聚焦购物本科生毕业(设计)论文.doc
- pid控制系统的设计及仿真matlab本科生毕业(设计)论文.doc
- plc舞台灯光控制系统大学毕业(设计)论文.doc
- plc变频调速恒压供水系统自动化等专业本科生毕业(设计)论文.doc
- plc控制中央空调水泵本科生毕设论文.doc
- plc在仓库码垛机中的设计应用大学毕业(设计)论文.doc
- pwm型半桥开关电源设计大学毕业(设计)论文.doc
最近下载
- 外文翻译-单片机外文文献翻译.doc VIP
- 2025贵州省旅游产业发展集团有限公司招聘115人笔试备考试题及答案解析.docx VIP
- 2025贵州省旅游产业发展集团有限公司招聘115人笔试参考题库附答案解析.docx VIP
- 遥感解译与野外核查技术规范.docx VIP
- 2025贵州省旅游产业发展集团有限公司招聘115人考试备考试题及答案解析.docx VIP
- 新时达SM01DPC调试学习资料.docx VIP
- 2025贵州省旅游产业发展集团有限公司招聘115人笔试模拟试题及答案解析.docx VIP
- 2025贵州省旅游产业发展集团有限公司招聘115人备考试题及答案解析.docx VIP
- 2025贵州省旅游产业发展集团有限公司招聘115人考试备考题库及答案解析.docx VIP
- (正式版)D-L∕T 806-2013 火力发电厂循环水用阻垢缓蚀剂.docx VIP
文档评论(0)