并行爬行器的架构与优化策略.pdf

摘要 摘要 搜索引擎是从互联网上快速而有效地获取信息资源的捷径。爬行器是搜索引 擎的重要组成部分,它在搜索引擎中负责网络信息采集,是搜索引擎数据库中原 始信息唯一来源。本文围绕着网络搜索这一前沿技术,深入研究了爬行器的工作 原理和相关技术,并在这些研究工作的基础之上设计实现了一个高性能并行爬行 器ChaoCrawler。 本文的研究内容主要包括: 分析并行爬行器现有的实现技术,包括系统框架,任务分配算法,系统内部 通信方式和协作方式。以主从结构为基本模型,阐述了基于NFS的并行爬行器 系统架构,协作机制,以及在此机制下并行爬行器的数据处理流程和数据并发访 问的处理方法。 针对并行爬行器所遇到的实际问题,实现了三种优化策略:冲突规避,uRL 索引和DNs缓冲。冲突规避算法将uRL散列和站点名散列相结合,应用多线程 技术,在实现了负载平衡同时,又避免了并行爬行器的并发冲突。uRL索引采 DB实现了Hash和B+树两种UI也索引 用了索引散列值的方法,基于Berkeley 库,满足了爬行器快速查找uRL的需要,为其正常运行提供了保障。D

文档评论(0)

1亿VIP精品文档

相关文档