基于Ｗｅｂｓｐｈｉｎｘ网络爬虫的研究与改进.docVIP

下载本文档

9
0
约7.36千字
约 12页
2018-03-16 发布于北京
举报
版权申诉

基于Ｗｅｂｓｐｈｉｎｘ网络爬虫的研究与改进.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于Ｗｅｂｓｐｈｉｎｘ网络爬虫的研究与改进　　摘要：搜索引擎技术随着互联网的日益壮大而飞速发展。它成功的商业运作也造就了Google、百度等这样的商业奇迹。作为搜索引擎的重要组成部分，网络爬虫的爬行效率对搜索引擎至关重要。基于Websphinx对网络爬虫进行了相关介绍，概述了Websphinx的结构框架、搜索方式及提出了一些看法。　　关键词：搜索引擎；Websphinx网络爬虫；超时；智能化　　中图法分类号：TP393文献标识码：A 文章编号：1009-3044(2008)28-0075-03 　　Research And Improvement of Network Reptile Based on Websphinx 　　ZHOU Xiang 　　(Tongji University Software College, Shanghai 200000, China) 　　Abstract: With the development of internet technical, Search engine is becoming more and more powerful. There are also some fantastic success cases like google and baidu. Network Reptile, as an important part of search engine, play an irreplaceable role in it, especially the performance. here we discuss about Network Reptile based on an exist open source――Websphinx, explain the structure and search style of Websphinx, and show out some new opinion. 　　Key words: search engine;websphinx network reptilesInterface; overtime;intelligent 　　1 引言　　现如今，随着搜索引擎的普及，网络爬虫程序也越来越受到人们的重视，它的效率直接关系到搜索引擎的速度。作为搜索引擎三环节中的第一个环节，它的效率直接决定了搜索引擎的搜索广度，面对浩瀚一望无边的网络海洋，如果有一个具有高性能爬虫程序，可能就会达到能够遍历所有internet网页内容的理想状态，同样会解决每天与日俱增的无数的网页和旧网页的更新。　　本文主要结合Websphinx 这个网络爬虫源程序来探讨一下关于爬虫程序的现状，该开源项目存在的一些问题以及一些可以改进的优化方案。　　2 websphinx 基本原理　　从一个基点网站出发，遍历其中的所有有用信息，同时抽去其中的链接信息放入队列，以待有空闲蠕虫（worm）时，从队列中读取，发出request请求，继续进行信息抽取和链接入队列的工作。　　3源代码分析　　入口为 websphinx.workbench.workbench 　　主界面如图2。　　输入starting URLs后，爬虫将以该网址为基点进行搜索　　点击start后代码如下：　　private transient PriorityQueue fetchQueue;//等待下载的链接队列　　private transient PriorityQueue crawlQueue;//已被爬出的但还未被处理链接队列　　fetchQueue接收到网络应答和内容后则将链接加入crawlQueue队列　　configureCrawler ();//读取界面输入框中参数信息，准备以后搜索　　…… 　　Thread thread = new Thread (crawler, crawler.getName ()); 　　thread.setDaemon (true); 　　thread.start ();//启动线程搜索　　crawler 是一个 Crawler类对象，实现Runnable接口　　public void run () { 　　…… 　　synchronized (crawlQueue) { 　　 Timer timer = new CrawlTimer (this); 　　 int timeout = dp.getCrawlTimeout();//dp：下载参数　　 if (timeout 0) 　　timer.set (timeout*1000, false);