- 4
- 0
- 约5.77万字
- 约 36页
- 2018-03-19 发布于河南
- 举报
NUTCH源代码分析!!
NUTCH一
Nutch的大致工作流程可以通过上一篇文章有了一定的了解了。在上一篇文章中,主要是针对一幅Nutch工作流程图片来了解Nutch的工作流程,十分感性,并没有涉及到任何关于Nutch的包和类。这里通过在网上下载的一个《Nutch入门学习》的PDF文档中介绍的内容,来详细组织一下,加深了解,为深入研究Nutch的源代码奠定良好的基础。
这里通过几个标题来叙述。
Nutch爬虫工作策略
Nutch爬虫的工作策略一般则可以分为累积式抓取(cumulative crawling)和增量式抓取(incremental crawling)两种。
累积式抓取是指从某一个时间点开始,通过遍历的方式抓取系统所能允许存储和处理的所有网页。在理想的软硬件环境下,经过足够的运行时间,累积式抓取的策略可以保证抓取到相当规模的网页集合。但由于Web数据的动态特性,集合中网页的被抓取时间点是不同的,页面被更新的情况也不同,因此累积式抓取到的网页集合事实上并无法与真实环境中的网络数据保持一致。
增量式抓取是指在具有一定量规模的网络页面集合的基础上,采用更新数据的方式选取已有集合中的过时网页进行抓取,以保证所抓取到的数据与真实网络数据足够接近。进行增量式抓取的前提是,系统已经抓取了足够数量的网络页面,并具有这些页面被抓取的时间信息。
面向实际应用环境的网络蜘蛛设计中,通常既包括累积式抓取,也包括增量式抓
您可能关注的文档
- TheLeanEnterprise21_5WHYSapproach(五个为什么).ppt
- 经济学原理与应用ppt-导论.ppt
- 期货开户.doc
- 培训公司实习报告.doc
- 精神营养素.doc
- 新目标英语九年课文unit4填空.doc
- LNG场站的建设发展.doc
- 万以内加法和减法练习.ppt
- 樊昌信-通信原理(第五版)第5章模拟信号的数字传输.ppt
- 反比例函数(dayin).doc
- 2025年住宅小区供水服务协议三篇.docx
- 初中物理教学中微格教学在实验教学中的应用课题报告教学研究课题报告.docx
- 高中竞赛辅导中自然语言处理在作文批改中的应用课题报告教学研究课题报告.docx
- CN120235721A 一种基于swat的适应气候变化的bmp优化配置方法 (中山大学).pdf
- 2025资料员考试质量资料试题及答案.doc
- 2025道路运输安全员证书考试精准题库及答案解析.doc
- 2026年铁路竞聘笔试题库及答案.doc
- 人工智能在高中历史教学中的应用:个性化学习资源推荐策略教学研究课题报告.docx
- 七年级数学备课组工作计划锦集(15篇).pdf
- 2026年辽宁丹东高中高一年级冀教版地理单元测试附答案解析及答案.doc
原创力文档

文档评论(0)