- 11
- 0
- 约6.47万字
- 约 62页
- 2016-03-25 发布于安徽
- 举报
摘要
摘要
搜索引擎是从互联网上快速而有效地获取信息资源的捷径。爬行器是搜索引
擎的重要组成部分,它在搜索引擎中负责网络信息采集,是搜索引擎数据库中原
始信息唯一来源。本文围绕着网络搜索这一前沿技术,深入研究了爬行器的工作
原理和相关技术,并在这些研究工作的基础之上设计实现了一个高性能并行爬行
器ChaoCrawler。
本文的研究内容主要包括:
分析并行爬行器现有的实现技术,包括系统框架,任务分配算法,系统内部
通信方式和协作方式。以主从结构为基本模型,阐述了基于NFS的并行爬行器
系统架构,协作机制,以及在此机制下并行爬行器的数据处理流程和数据并发访
问的处理方法。
针对并行爬行器所遇到的实际问题,实现了三种优化策略:冲突规避,uRL
索引和DNs缓冲。冲突规避算法将uRL散列和站点名散列相结合,应用多线程
技术,在实现了负载平衡同时,又避免了并行爬行器的并发冲突。uRL索引采
DB实现了Hash和B+树两种UI也索引
用了索引散列值的方法,基于Berkeley
库,满足了爬行器快速查找uRL的需要,为其正常运行提供了保障。DNS缓冲
通过客户机缓冲的方式,采用全缓冲策略,解决了域名解析的瓶颈,提高了并行
爬行器的运行效率。
最后,设计实现了实验原型系统chaocrawler。通过在互联网上进行实验,
化策略的有效性。
关键词搜索引擎;信息采集;爬行器;并行;检索
Absnlct
Abstract
findmiOmatlonfbmIntemet.Acrawleran
Asearch isashortcuttO 1s
engine
ofasearch is forwebinfo珊ation
iInponantcomponent en百ne.Itresponsible
isme sourceoftherawdatainsearch database.111is
gamering.Itonly engine paper
atweb tllerelated
aimes technology,and meory
searching,acuttiIlgedge investigates
and indetail.A crawleris and
technology hi曲perfomlanceparallel desi印ed
basedonthis
implememed knowledge.
Theresearchwork includes outlines.
mainly following
basic fora crawlerand
dissertation architectures
Firstly,this proposes parallel
ident讯essomef曲daInentalissuesrelatedto the
parallelcrawling,including
oftask
原创力文档

文档评论(0)