一种优化的网络爬虫的设计与实现.docVIP

下载本文档

5
0
约3.11千字
约 5页
2018-04-13 发布于北京
举报
版权申诉

一种优化的网络爬虫的设计与实现.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

一种优化的网络爬虫的设计与实现　　摘要：网络爬虫是搜索引擎的重要组成部分，它在搜索引擎中负责网络信息的采集。详细介绍了Web_Crawler，一种优化的网络爬虫的设计和实现，包括系统框架、主要模块、多线程工作和数据缓冲池的转存技术。Web-Crawler主要从多线程并行下载提高了速度，并利用数据缓冲池转存技术在实现快速检索的同时减少了存储空间需求这两方面来优化网络爬虫。　　关键词：搜索引擎；信息采集；网络爬虫；数据缓冲池　　中图分类号：TP393文献标识码：A文章编号：1009-3044(2008)35-2082-02 　　Design and Implementation of a optimized Web-Crawler 　　CAO Zhong1,ZHAO Wen-jing2 　　(1.College of Computer and Educational Software,Guangzhou University,Guangzhou 510006,China;2.Center of Experiment,Guangzhou University,Guangzhou 510006,China) 　　Abstract: Web-Crawler is a important part of search engine,it is responsible for the network information gathering.The paper introduce the design and implement of a optimized Web-Crawler.It include the frame,Main module, multi-thread work and the data buffer pool Shift memory technology. Web-Crawler depends Multi-thread parallel downloading enhanced the speed,and uses the data buffer pool Shift memory technology to realize Fast retrieval and Reduced the storage space demand. 　　Key words: search engine; information gathering; web-crawler; data buffer pool 　　　　1 引言　　　　搜索引擎(Search Engine)是随着Web信息的迅速增加，从90年代中期开始逐渐发展起来的技术。面对Internet上浩如烟海的信息，搜索引擎主要功能就是方便人们快速地在Internet上找到自己所关心的信息。网络爬虫程序是搜索引擎的重要组成部分。它通过请求站点上的HTML文档访问某一站点，它遍历Web空间，不断从一个站点移动到另一个站点，自动建立索引，并加入到网页数据库中。网络爬虫进入某个超级文本时，它利用HTML语言的标记结构来搜索信息及获取指向其他超级文本的URL地址，可以完全不依赖用户干预实现网络上的自动爬行和搜索。是整套搜索系统的流程启动者。其设计的好坏和性能的优劣直接影响系统的性能。　　网络爬虫的主要功能包括：　　1) 通过HTTP协议，从Internet中抓取网页信息；　　2) 判断页面内容有无重复；　　3) 从页面信息中提取URL，并判断提取的URL的可用性；　　4) 判断获取的URL是否已被访问过，若未访问则将此URL放入待访问队列中。　　该文介绍了一种优化的网络爬虫Web_Crawler的设计方案。由于网络信息量的巨大，网络爬虫多采用多机并行的设计方案。　　　　2 系统框架　　　　Web_Crawler采用多机并行的设计方案。系统中包括一个本地配置器(Local Collocation)和多个网络爬虫Web_Crawler。本地配置器对被搜索的网络进行逻辑划分，并把划分后的逻辑分区分配给每个网络爬虫。每一个网络爬虫采用多线程负责下载自己负责的逻辑分区内的网页，并通过本地配置器来相互交换下载任务，相互之间通过高速的局域网进行通信。它们使用本地存储空间存储下载的网页，但在存入本地存储空间之前使用数据缓冲池进行转存，在缓冲池中进行信息的标引，处理后的结果被集中保存在媒体内容数据库中以供检索程序使用。整个系统框架如图1 所示。　　Web_Crawler：网络爬虫；　　Local Collocation：本地配置器；　　Data Buffer Pool：数据缓冲池；　　Information