2015的原理与结构二.pptVIP

  • 2
  • 0
  • 约4.41千字
  • 约 22页
  • 2016-12-09 发布于北京
  • 举报
2015的原理与结构二

Web Spider的原理与结构 (二) Web Spider的Url检索算法 引 言 Web Spider的url处理过程简介 在信息采集的过程中,为了避免重复采集相同的页面,需要记住已经发现的页面(包括已经采集过的页面,正在采集的页面和等待采集的页面)。采集中凡遇到一个页面,需要判断该页面的URL是否已发现的url。若不是新发现的url,则将其丢弃;否则将它放入待采集url队列。 引言 url检索算法的速度和所占用的内存空间的大小都什么重要。 特别是在有中心节点的分布式Web Spider中,如果url检索算法的速度较慢的话就会在中心节点形成瓶颈,严重影响整个系统的采集速度和可扩展性。 现有算法占用存储空间较大,对重复率高的url集合检索速度较慢。 Rabin指纹算法 Rabin指纹生成算法基于由美国哈佛大学教授拉宾(Rabin)提出的方法,其思想如下: Rabin算法性质 拉宾的方案具有如下性质: 如果字符串A的指纹不同于字符串B的指纹,那么字符串A也不同于字符串B:f(A)≠f(B)=A≠B 运算速度较快 3 RP算法 基本思想: RP算法算法描述 RP算法特点 记录一条url只需一位 判断url是否已经访问过时,只需用索引寻址,即基址加上偏移量,对相应的位的状态进行判断即可。这

文档评论(0)

1亿VIP精品文档

相关文档