毕业设计(论文-Web服务爬虫程序的设计与实现.doc

毕业设计(论文-Web服务爬虫程序的设计与实现.doc

  1. 1、本文档共52页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
毕业设计(论文-Web服务爬虫程序的设计与实现

Web服务爬虫程序的设计与实现PAGE \* MERGEFORMAT35Web服务爬虫程序的设计与实现摘要随着互联网的发展人们对跨平台程序之间进行交互的需求也越来越大,Web服务的提出有效地满足了人们的需要,它可以实现两个跨平台程序之间的无缝连接,从而降低了软件维护和升级的费用。目前,互联网上存在着大量的Web服务,但是它们大都分散在不同的服务器上,这就使得用户在浩瀚的互联网上寻找自己需要的服务时要耗费大量的时间和精力,因此设计一个可以将到处分散的服务收集起来,统一存储在本地数据库,并对其进行管理与更新的程序十分有必要。本项目是一个基于Python的多线程的Web服务爬虫程序,它采用广度优先爬取的方式,先抓取出种子网站的全部URL链接存入列队中,然后再依次访问列队中的URL,继续抓取页面中新的URL往列队中存放,一直循环直到列队为空停止。对于抓取到的URL依次用正则表达式进行判别,检查其是否符合Web服务WSDL文档的规范。对于符合规范的URL,访问其对应的页面,若可以访问则将该页面下载到本地,如此,便可以将网络上分散的Web服务描述文档WSDL文档都抓取到本地。接下来,对抓取到本地的文档进行解析,获取其中的关键信息,比如服务名称、端口类型、操作等,然后将这些信息存入数据库中。最后,开发一个Web服务展示网站将爬取到的Web服务进行分类展示到页面上,同时显示其相关信息,方便用户查看与阅读。??本文对该爬虫程序进行了详细的介绍。首先从研究背景与现状入手,在介绍完项目关键技术的基础上,重点介绍了Web服务爬虫程序的设计、WSDL文档的解析与存储以及展示网站的设计与实现,最后对整个项目进行了总结并对该项目以后的发展做了展望。关键词:Web服务,网络爬虫,WSDL,Python,服务解析 DESIGN AND IMPLENMENTATION OF WEB CLAWER OF WEB SERVICEAbstractWith the development of the Internet, the demand for interaction of cross platform program is also growing, the proposal of Web services effectively meets the needs. Web services can achieve a seamless connection between the two cross platform programs, which reduces software maintenance and upgrade costs. Currently, there are a large number of Web services on the Internet, but most of them scattered in different server, which makes users spend a lot of time and energy to find them in the vast Internet when they need this service. So it is necessary to design a program that can collected services which decentralized everywhere to local database to unified storage, manage and update.The project is a multi-threaded Python-based Web service crawler, which uses breadth-first crawling way. Firstly, the crawler crawls out of the entire URLs from seed page, then turn the URL into the queue and turn to access the URL of URL queue, and then continue to crawl the page to get new URLs, repeat the above operation until the queue is empty. For the URL crawled, discriminating them with a regular expression, to check whether they meet t

文档评论(0)

138****7331 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档