ch02信息采集概述.ppt

ch02信息采集概述

第二章 信息采集;信息采集;信息采集;主要内容;2.1 网络爬虫;2.1 网络爬虫;1、通用爬虫框架;2、万维网蝶型结构;3、种子URL;4、优秀爬虫的特性;2.2 爬虫抓取原理;1、网页获取;1、网页获取;2、网页抓取策略;深度优先策略;宽度优先策略;宽度优先策略;宽度优先策略;宽度优先策略;非完全PageRank策略;其他策略;3 不重复抓取策略;哈希策略;哈希策略;哈希策略;哈希策略;哈希策略;哈希策略;哈希策略;哈希策略;哈希策略;哈希策略;哈希策略;深度策略;4、抓取提速策略;4、抓取提速策略;4、抓取提速策略;分布式爬虫;分布式爬虫;分布式爬虫;分布式爬虫;5、暗网抓取;6、网页重访(更新)策略;历史参考策略;历史参考策略;历史参考策略;用户体验策略;聚类抽样策略;2.3 Robots协议;Robots协议;Robots协议;Robots协议;2.4 网页存储;网页存储特征;网页存储方式;三种存储方式的使用;BigTable;BigTable;BigTable;BigTable;BigTable;BigTable;BigTable;BigTable;BigTable;BigTable;文件格式转换;2.5 重复检测;重复检测基本思路;重复检测基本思路;n-gram指纹算法;n-gram指纹算法;simhash指纹算法;simhash指纹算法;思考题

文档评论(0)

1亿VIP精品文档

相关文档