- 2
- 0
- 约4.41千字
- 约 22页
- 2016-12-09 发布于北京
- 举报
2015的原理与结构二
Web Spider的原理与结构 (二) Web Spider的Url检索算法 引 言 Web Spider的url处理过程简介 在信息采集的过程中,为了避免重复采集相同的页面,需要记住已经发现的页面(包括已经采集过的页面,正在采集的页面和等待采集的页面)。采集中凡遇到一个页面,需要判断该页面的URL是否已发现的url。若不是新发现的url,则将其丢弃;否则将它放入待采集url队列。 引言 url检索算法的速度和所占用的内存空间的大小都什么重要。 特别是在有中心节点的分布式Web Spider中,如果url检索算法的速度较慢的话就会在中心节点形成瓶颈,严重影响整个系统的采集速度和可扩展性。 现有算法占用存储空间较大,对重复率高的url集合检索速度较慢。 Rabin指纹算法 Rabin指纹生成算法基于由美国哈佛大学教授拉宾(Rabin)提出的方法,其思想如下: Rabin算法性质 拉宾的方案具有如下性质: 如果字符串A的指纹不同于字符串B的指纹,那么字符串A也不同于字符串B:f(A)≠f(B)=A≠B 运算速度较快 3 RP算法 基本思想: RP算法算法描述 RP算法特点 记录一条url只需一位 判断url是否已经访问过时,只需用索引寻址,即基址加上偏移量,对相应的位的状态进行判断即可。这
您可能关注的文档
最近下载
- 中考数学复习 考前突破06二次函数与几何综合题(4大必考题型)原卷版.pdf VIP
- 供电局安健环技术标准.doc VIP
- (二模)郑州市2026年高三高中毕业年高三级第二次质量预测化学试卷(含答案).pdf
- 五年级上学期家长会.ppt VIP
- 《中国痴呆与认知障碍诊治指南(2025年版)》.docx VIP
- 方菱数控切割控制系统操作手册(Ver5.0).pdf
- 汽车电动助力转向系统设计.docx
- 2026年河南工业职业技术学院单招职业适应性测试题库与答案详解.docx VIP
- 好莱坞电影剧本_沃依采克_影视剧本写作.doc VIP
- (二模)郑州市2026年高三高中毕业年高三级第二次质量预测英语试卷(含答案)+听力音频.docx
原创力文档

文档评论(0)