- 30
- 0
- 约1.43万字
- 约 14页
- 2018-06-09 发布于贵州
- 举报
窗体顶端
网络爬虫调研报告
基本原理
Spider概述
Spider即网络爬虫 ,其定义有广义和狭义之分。狭义上指遵循标准的 http协议利用超链接和 Web文档检索的方法遍历万维网信息空间的软件程序 ;而广义的定义则是所有能遵循 http协议检索 Web文档的软件都称之为网络爬虫。
Spider是一个功能很强的自动提取网页的程序 ,它为搜索引擎从万维网上下载网页 ,是搜索引擎的重要组成 .它通过请求站点上的 HTML文档访问某一站点。它遍历 Web空间 ,不断从一个站点移动到另一个站点 ,自动建立索引 ,并加入到网页数据库中。网络爬虫进入某个超级文本时 ,它利用 HTML语言的标记结构来搜索信息及获取指向其他超级文本的 URL地址 ,可以完全不依赖用户干预实现网络上的自动爬行和搜索。
Spider的队列
(1)等待队列 :新发现的 URL被加入到这个队列 ,等待被 Spider程序处理 ;
(2)处理队列 :要被处理的 URL被传送到这个队列。为了避免同一个 URL被多次处理 ,当一个 URL被处理过后 ,它将被转移到完成队列或者错误队列 (如果发生错误 )。
(3)错误队列 :如果在下载网页是发生错误 ,该 URL将被加入 到错误队列。
(4)完成队列 :如果在处理网页没有发生错误 ,该 URL将被加入到完成队列。
网络爬虫搜索策略
在抓取网页的时候 ,目前网络爬
您可能关注的文档
- 贵州省六盘水市六盘水川宏建材有限责任公司年产8000万块节能环保免烧砖和20万立方空心砌块项目1pdf_86712_.pdf
- 设立XX基金管理公司项目可行性分析报告-201110.pdf
- 贵安新区花溪大学城人才路道路工程项目环评 2.pdf
- 轴类零件数控车削工艺分析及数控加工编程机械专业设计范文.pdf
- 重大固定资产投资项目社会稳定风险评估报告编制大纲及说明试行.pdf
- 西安尧柏环保科技富平水泥窑协同处置固体废物环境影1环评报告.pdf
- 重庆斯特森商务酒店可行性研究报告080108.pdf
- 郑州航空城概念性总体规划设计118p总体布局方案21.pdf
- 金众传媒项目商业计划书定稿.pdf
- 钢铁行业污染防治最佳可行技术导则—烧结及球团工艺》编制研究报告.pdf
- CN118228103B 基于网络模式和元路径的双视图范式的异构图神经网络节点分类方法 (华南理工大学).docx
- CN118207835B 一种联合火箭锚与植桩技术的堤防决口快速封堵方法 (大连理工大学).docx
- CN118211675B 基于机器学习消除冗余约束的机组组合加速寻优方法及系统 (中国电力科学研究院有限公司).docx
- CN118297473B 电力系统电压安全评估及优化方法、系统、设备和介质 (国网经济技术研究院有限公司).docx
- CN117997906B 节点计算资源分配方法、网络交换子系统及智能计算平台 (广东琴智科技研究院有限公司).docx
- CN118298536B 一种基于智慧社区监控系统的门禁授权认证方法及系统 (广州市西迈信息科技有限公司).docx
- CN118225438B 大功率霍尔推进器在轨健康状态监测方法 (哈尔滨工业大学).docx
- CN118052938B 一种基于多源数据融合的建筑物多细节层次模型重建方法 (北京市测绘设计研究院).docx
- CN117964706B 一种十五元环缩肽类化合物及其制备方法与应用 (广西中医药大学).docx
- CN118081766B 一种面向协调类任务的双臂机器人主从统一导纳控制方法 (南京航空航天大学).docx
最近下载
- 2026年河南林业职业学院单招职业技能考试题库有答案解析.docx VIP
- 22CJ40-61建筑防水系统构造(六十一).docx VIP
- 强基-化学讲义.pdf
- 普通高中化学课程标准(2017年版2025年修订)解读PPT课件.pptx VIP
- 2024年保安员证考试题库及答案(共280题).pdf VIP
- 《普通高中化学课程标准(2017年版2025年修订)》解读PPT课件.pptx VIP
- 《普通高中化学课程标准(2017年版2025年修订)》解读PPT课件.pptx VIP
- 标准图集-22CJ40-65 建筑防水系统构造(六十五).pdf VIP
- 光伏设计费计算表4.19(依据NB32030-2016).xlsx VIP
- 天体物理建模:宇宙大尺度结构模拟_(1).天体物理建模基础v1.docx
原创力文档

文档评论(0)