Chapter+3+网络爬虫分析.ppt

Chapter 3 网络爬虫 陈珂锐 chenke0616@163.com 计算机与信息工程学院 快讯 必应学术搜索 计算奥运会SortBenchmark 目录 1.通用爬虫框架 2.优秀爬虫的特性 3.评价标准 4.爬取策略 5.网页更新策略 6.分布式爬虫 1.通用爬虫框架(1) 1.通用爬虫框架(2) 1.通用爬虫框架(3) 批量型爬虫 增量型爬虫 垂直型爬虫 2.优秀爬虫的特性 高性能 可扩展性 健壮性 友好性 爬虫禁抓协议 Robot.txt 网页禁抓标记 禁止索引网页内容 meta name=“robots” content=“noindex” 禁止抓取网页链接 meta name=“robots” content=“nofollow” 3.评价标准(1) 抓取页面覆盖率 抓取网页时新性 抓取网页重要性 3.评价标准(2) 爬虫研发目标: 既然搜索引擎只能抓取互联网现存网页的一部分,那么就尽可能选择比较重要的那部分页面索引 对于已经抓取到的网页,尽可能更新其内容,使得索引网页和互联网对应页面内容同步更新 在此基础上,尽可能扩大抓取范围,抓取到更多以前无法发现的网页 3.评价标准(3) 4.爬取策略 4.1 宽度优先遍历策略(Breadth First) 4.2 非完全PageRank策略(Partial PageRank) 4.3 OPIC策略(Online

文档评论(0)

1亿VIP精品文档

相关文档