并行爬行器架构与优化策略.pdfVIP

  • 11
  • 0
  • 约6.47万字
  • 约 62页
  • 2016-03-25 发布于安徽
  • 举报
摘要 摘要 搜索引擎是从互联网上快速而有效地获取信息资源的捷径。爬行器是搜索引 擎的重要组成部分,它在搜索引擎中负责网络信息采集,是搜索引擎数据库中原 始信息唯一来源。本文围绕着网络搜索这一前沿技术,深入研究了爬行器的工作 原理和相关技术,并在这些研究工作的基础之上设计实现了一个高性能并行爬行 器ChaoCrawler。 本文的研究内容主要包括: 分析并行爬行器现有的实现技术,包括系统框架,任务分配算法,系统内部 通信方式和协作方式。以主从结构为基本模型,阐述了基于NFS的并行爬行器 系统架构,协作机制,以及在此机制下并行爬行器的数据处理流程和数据并发访 问的处理方法。 针对并行爬行器所遇到的实际问题,实现了三种优化策略:冲突规避,uRL 索引和DNs缓冲。冲突规避算法将uRL散列和站点名散列相结合,应用多线程 技术,在实现了负载平衡同时,又避免了并行爬行器的并发冲突。uRL索引采 DB实现了Hash和B+树两种UI也索引 用了索引散列值的方法,基于Berkeley 库,满足了爬行器快速查找uRL的需要,为其正常运行提供了保障。DNS缓冲 通过客户机缓冲的方式,采用全缓冲策略,解决了域名解析的瓶颈,提高了并行 爬行器的运行效率。 最后,设计实现了实验原型系统chaocrawler。通过在互联网上进行实验, 化策略的有效性。 关键词搜索引擎;信息采集;爬行器;并行;检索 Absnlct Abstract findmiOmatlonfbmIntemet.Acrawleran Asearch isashortcuttO 1s engine ofasearch is forwebinfo珊ation iInponantcomponent en百ne.Itresponsible isme sourceoftherawdatainsearch database.111is gamering.Itonly engine paper atweb tllerelated aimes technology,and meory searching,acuttiIlgedge investigates and indetail.A crawleris and technology hi曲perfomlanceparallel desi印ed basedonthis implememed knowledge. Theresearchwork includes outlines. mainly following basic fora crawlerand dissertation architectures Firstly,this proposes parallel ident讯essomef曲daInentalissuesrelatedto the parallelcrawling,including oftask

文档评论(0)

1亿VIP精品文档

相关文档