基于农业MVC设计模式网络蜘蛛实现.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于农业MVC设计模式网络蜘蛛实现

基于农业MVC设计模式网络蜘蛛实现   摘 要:利用PHP语言开发的基于农业的MVC设计模式的网络蜘蛛。可以实现采集,能够把各类的互联网信息或者数据采集到自己的数据库中,然后再进行一系列的处理。本文介绍的是整个网络蜘蛛从无到有的过程。利用MVC的架构思想开发出具有模块化、易于多人开发、易于维护性、易于拓展和易于二次开发的特性的农业网络蜘蛛。   关键词:PHP;MVC;农业网络蜘蛛   一、引言   农业(Agriculture)是利用动植物的生长发育规律,通过人工培育来获得产品的产业。农业属于第一产业,研究农业的科学是农学。农业的劳动对象是有生命的动植物,获得的产品是动植物本身。农业提供支撑国民经济建设与发展的基础产品。   传统农业发展到今天,生产力与生产资料已经不能匹配时代的发展。特别作为人类的精华,很多的农业相关宝贵的知识,不能够很好地传承与发展。而知识的传承性,关系到人类的兴衰。如果知识不能很好的传承,那么后世的人类就必须重新去研究、探索、总结。无疑,农业相关前人知识的研究不止要传承下去,而且还要很好的传承下去。   互联网是一种现今先进生产力的技术集,它集合了IT、网络、大数据、人工智能等各种技术。它是人类的先进生产力与生产资料。农业与互联网的结合将对传统农业带来全新的血液。结合互联网的高速处理、持久存储以及快速获取的能力,互联网将把农业知识进行极好的传承,最终将会在讲来把农业推向一个新的高度。   二、网络蜘蛛的定义与原理   网络蜘蛛即Web Spider,是一个很形象的名字。如果把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。那么网络蜘蛛到底是做什么的呢?   其实网络蜘蛛就是一种获取互联网数据到特定数据库系统中的一种程序工具,它的作用就是不断的获取互联网的内容,通过特有的过滤技术,最终把内容获取到数据库系统中,最终供用户来检索信息以及资源。   从架构层面上来说:网络蜘蛛是有很多种设计模式的,每种模式都有不同的应用方向。常见的设计模式可以分为几类。   1. 深度优先。深度优先是指网络蜘蛛会从 起始页开始,一个链接一个链接跟踪下去,处理完这条线路之后再转入下一个起始页,继续跟踪链接。这个方法有个优点是网络蜘蛛在设计的时候比较容易。   2. 广度优先。广度优先是指网络蜘蛛会先抓取起始网页中链接的所有网页,然后再选择其中的一个链接网页,继续抓取在此网页中链接的所有网页。这是最常用的方式,因为这个方法可以让网络蜘蛛并行处理,提高其抓取速度。   3.通用方式。网站内容多种多样,结构也是各有不同,如何做到精准抓取呢。这就需要一个通用的结构体系。通用方式的结构体系可以分为以下三个步骤:   (1) Url网址规则获取   (2) Listing列表页面获取   (3) Content最终内容页面获取   4.几种方式的对比。无论是深度优先,还是广度优先,在获取内容上通常是获取一个超链接地址后一个一个的爬行,在有些我们不得不对特定的网站进行内容抓取的时候就没有方法了。在这一种情况下,我们所需要的其实是精准的抓取而不是一个接一个的“爬取”。所以深度优先和广度优先在这一类型的情况下是不适用的。通用方式就是解决这种情况的。通用方式会按照用户需求有选择的获取内容。   三、农业网络蜘蛛程序国内外现状   1.国外情况。国外的IT水平相对较高,我们可以在国外看到一些不错的网络蜘蛛。   (1)Larbin。larbin是一种开源的网络爬虫/网络蜘蛛,由法国的年轻人 Sébastien Ailleret独立开发。larbin目的是能够跟踪页面的url进行扩展的抓取,最后为搜索引擎提供广泛的数据来源 。   (2)Spiderman。Spiderman 是一个基于微内核+插件式架构的网络蜘蛛,它的目标是通过简单的方法就能将复杂的目标网页信息抓取并解析为自己所需要的业务数据。   (3)OpenWebSpider。OpenWebSpider是一个开源多线程Web Spider(robot:机器人,crawler:爬虫)和包含许多有趣功能的搜索引擎。   2.国内情况。国内的爬虫程序一般数量不多,质量也不好,大多数程序是对于国外开源程序的引用,以及二次开发,所以不做多讲。   四、程序具体实现(程序设计简介)   1. 文件结构。对于一个程序的实现,文件结构是十分重要的。良好的文件结构常常意味着程序功能的合理。本程序的文件结构图如图1所示:   图1 文件结构图   Fig.1 The file structure diagram   2. 网络蜘蛛的设计与流程。此农业网络蜘蛛是一个通用的采集程序,采用的是通用方式,基于MVC开发思想,基于语言PHP,所需要

文档评论(0)

317960162 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档