并行爬行器的架构与优化策略.pdf

下载文档 降价啦

6
0
约6.47万字
约 62页
2017-09-02 发布于安徽
举报
保障服务

并行爬行器的架构与优化策略.pdf

摘要摘要搜索引擎是从互联网上快速而有效地获取信息资源的捷径。爬行器是搜索引擎的重要组成部分，它在搜索引擎中负责网络信息采集，是搜索引擎数据库中原始信息唯一来源。本文围绕着网络搜索这一前沿技术，深入研究了爬行器的工作原理和相关技术，并在这些研究工作的基础之上设计实现了一个高性能并行爬行器ChaoCrawler。本文的研究内容主要包括：分析并行爬行器现有的实现技术，包括系统框架，任务分配算法，系统内部通信方式和协作方式。以主从结构为基本模型，阐述了基于NFS的并行爬行器系统架构，协作机制，以及在此机制下并行爬行器的数据处理流程和数据并发访问的处理方法。针对并行爬行器所遇到的实际问题，实现了三种优化策略：冲突规避，uRL 索引和DNs缓冲。冲突规避算法将uRL散列和站点名散列相结合，应用多线程技术，在实现了负载平衡同时，又避免了并行爬行器的并发冲突。uRL索引采 DB实现了Hash和B+树两种UI也索引用了索引散列值的方法，基于Berkeley 库，满足了爬行器快速查找uRL的需要，为其正常运行提供了保障。D

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

并行爬行器的架构与优化策略.pdf

并行爬行器的架构与优化策略.pdf

您可能关注的文档

最近下载

文档评论（0）

1亿VIP精品文档

相关文档