Chapter 3 网络爬虫 陈珂锐 chenke0616@163.com 计算机与信息工程学院 快讯 必应学术搜索 计算奥运会SortBenchmark 目录 1.通用爬虫框架 2.优秀爬虫的特性 3.评价标准 4.爬取策略 5.网页更新策略 6.分布式爬虫 1.通用爬虫框架(1) 1.通用爬虫框架(2) 1.通用爬虫框架(3) 批量型爬虫 增量型爬虫 垂直型爬虫 2.优秀爬虫的特性 高性能 可扩展性 健壮性 友好性 爬虫禁抓协议 Robot.txt 网页禁抓标记 禁止索引网页内容 meta name=“robots” content=“noindex” 禁止抓取网页链接 meta name=“robots” content=“nofollow” 3.评价标准(1) 抓取页面覆盖率 抓取网页时新性 抓取网页重要性 3.评价标准(2) 爬虫研发目标: 既然搜索引擎只能抓取互联网现存网页的一部分,那么就尽可能选择比较重要的那部分页面索引 对于已经抓取到的网页,尽可能更新其内容,使得索引网页和互联网对应页面内容同步更新 在此基础上,尽可能扩大抓取范围,抓取到更多以前无法发现的网页 3.评价标准(3) 4.爬取策略 4.1 宽度优先遍历策略(Breadth First) 4.2 非完全PageRank策略(Partial PageRank) 4.3 OPIC策略(Online
您可能关注的文档
- 7234综合探究二从地球仪上看世界(精编版)分析.ppt
- 47013.3修订说明分析.ppt
- 102013高考专项之图文转换1分析.ppt
- 151217物业服务企业日常经营相关法律问题分析.ppt
- 201203建设工程项目管理分析.ppt
- 1053111班主题班会(戒烟)分析.ppt
- 20060802-印刷基础知识系列培训-第1章-印刷发展简史分析.ppt
- 20090911工技大留学生教育工作汇报分析.ppt
- 20140514新版高考冲刺,语文作为袁健分析.ppt
- 20140823工业设计必了解的产品工艺和表面处理方法分析.ppt
- 【人民日报】十五五规划必刷100题及答案.docx
- 国家电网有限公司高校毕业生招聘考试公共与行业知识题库及答案(2026版).docx
- 高中入团积极分子考试题库及答案.docx
- 北京工业大学耿丹学院《社会福利思想》2025-2026学年期末试卷.doc
- 北京工业大学耿丹学院《新中国史》2025-2026学年期末试卷.doc
- 北京工业大学耿丹学院《文献信息检索与利用》2025-2026学年期末试卷.doc
- 活动策划丨长城炮越野皮卡上市发布方案 .pdf
- 【中考动员】主题班会《100天做自己的六边形战士+》.pptx
- 中考英语高频词汇第二部分 阅读技能·提升练(学用).pdf
- 商业综合体安全生产管理制度.docx
最近下载
- 应用说明zynq7000全可编程成像套件详解.pdf VIP
- xilinx zynq7000epp实时内核详解.pdf VIP
- ARM+FPGA双核计算的配电自动化终端设计.pdf VIP
- T∕GDPMAA 0024-2025 无管中心建设及工作规范.docx VIP
- 基于PLC的风力发电控制系统设计.docx VIP
- Xilinx基于ARM的Zynq-7000和Zynq UltraScale+ MPSoC及RFSoC器件是否存在安全漏洞.docx VIP
- 旧房改造施工技术规范.docx VIP
- 学习笔记zynq7000启动流程介绍.pdf VIP
- 双核英特尔至强处理器7000系列产品简介.pdf VIP
- SY_T 7023-2023 油气输送管道工程盾构法隧道穿越设计规范.docx VIP
原创力文档

文档评论(0)