摘要
摘要
搜索引擎是从互联网上快速而有效地获取信息资源的捷径。爬行器是搜索引
擎的重要组成部分,它在搜索引擎中负责网络信息采集,是搜索引擎数据库中原
始信息唯一来源。本文围绕着网络搜索这一前沿技术,深入研究了爬行器的工作
原理和相关技术,并在这些研究工作的基础之上设计实现了一个高性能并行爬行
器ChaoCrawler。
本文的研究内容主要包括:
分析并行爬行器现有的实现技术,包括系统框架,任务分配算法,系统内部
通信方式和协作方式。以主从结构为基本模型,阐述了基于NFS的并行爬行器
系统架构,协作机制,以及在此机制下并行爬行器的数据处理流程和数据并发访
问的处理方法。
针对并行爬行器所遇到的实际问题,实现了三种优化策略:冲突规避,uRL
索引和DNs缓冲。冲突规避算法将uRL散列和站点名散列相结合,应用多线程
技术,在实现了负载平衡同时,又避免了并行爬行器的并发冲突。uRL索引采
DB实现了Hash和B+树两种UI也索引
用了索引散列值的方法,基于Berkeley
库,满足了爬行器快速查找uRL的需要,为其正常运行提供了保障。D
原创力文档

文档评论(0)