互联网数据采集系统的设计与实现.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

针对目前互联网上的数据信息涉及网站多、数据量大、数据复杂、数

据标准不统一等问题。通过采用分布式数据库和支撑服务组件等技术,设计建设

一套互联网信息采集管理系统,实现对互联网上相关的数据快速采集和生产标准

格式数据的目标。

1、概述

全球互联网步入泛在普及、深度融合、变革创新、引领转型的新阶段,根据

国际数据公司的统计和预测,全球数据存储量将由2015年的10ZB增长到2020

年的44ZB,进入万物互联时代数据存储量呈现指数级增长,各类新闻媒体、信息

检索、社区论坛、商务金融、学习教育等多样化数据资源已经遍布于互联网的各

个角落,互联网已经成为了一个庞大的数据资源池。因此,无论是政务机构、企

事业单位甚至是个人,已经逐渐的将互联网数据资源作为辅助完成项目建设、业

务工作、科学研究的重要数据来源之一。所以,有必要建立一套互联网数据采集

系统,解决互联网数据采集问题,丰富中心大数据来源,为政府决策、行业管理

以及公众提供更好的信息服务。

2、系统总体设计

本系统具体包括互联网信息感知系统,分布式数据库和支撑服务组件。

(1)互联网信息感知系统

互联网信息感知系统包含三个子系统,分别是后台管理子系统、爬虫容器子

系统、存储容器子系统。其中后台管理子系统主要实现数据统计分析、爬虫任务

管理、爬虫模板管理、爬虫程序管理、爬虫配置管理、用户管理、角色管理、菜

单管理、字典管理等功能。爬虫容器子系统主要实现爬虫的任务管理,包括创建

爬虫任务、启动任务、部署任务、停止任务等功能。存储容器子系统主要实现了

数据分析处理、数据排重处理、数据格式化处理等功能。

互联网信息感知系统数据库

互联网信息感知系统数据库包含两个主要数据库,分别是管理平台数据库、

采集数据平台存储数据库。其中管理平台数据库存储了整个系统正常运行的系统

数据的管理平台数据库,包括爬虫任务、爬虫程序、爬虫配置、用户、角色、字

典等系统基础数据。采集数据平台存储了通过互联网相关网站采集获取的数据。

(3)支撑服务建设

支撑服务包含消息队列、Zookeeper注册中心、FTP服务器。其中消息队列

用于解耦爬虫任务和数据库的存取关系,并可降低对数据库的存储压力。注册中

心用于获取爬虫容器和爬虫任务的运行状态,便于服务治理。FTP服务存储爬虫

任务爬取的图片数据。

系统采用分层架构设计,包括6层,即基础层、数据层、业务层、支撑层、

应用管理层和展现层。

图1总体架构设计

(1)基础层

基础层由网络设备,存储设备和安全设备等系统所需的基础环境组成。

(2)数据层

数据层由Mysql数据库组成,主要分为信息采集平台数据库和爬虫数据库,

分别存储基础数据和爬取的业务数据。

业务层

业务层主要包含接口服务和存储服务,后端管理系统通过接口方式调用和同

步对存储服务和爬虫的进行相应的操作。

(4)支撑层

本系统的支撑层主要包含Zookeeper注册中心、RocketMQ消息队列和FTP文

件存储服务器。

Zookeeper协调管理爬虫容器和数据处理容器,Zookeeper检测爬虫任务和

爬虫服务的存活状态,并实时通知信息采集管理平台,提供选择爬虫服务的依据。

RocketMQ对爬虫服务和数据库进行解耦,缓存爬虫服务抓取的数据,降低存

储数据的并发度,提高数据的横向扩充能力,解除数据写入带来的数据抓取限制。

FTP文件存储服务器存贮爬虫程序抓取的静态文件包括不限于抓取的Css、

Html、Js、Image、Video等文件。

(5)应用层

系统的应用层,采用Java语言开发,使用基于Spring集成的SSM框架,实

现的主要业务有和数据库的数据交互,任务调度,任务分配和爬虫服务的接口通

信、和支撑服务的业务通信。由任务管理、模板管理、系统管理、爬虫管理等组

成。

(6)展现层

展现层面向操作用户,使用Element-ui2.5框架,Vue2.6。和

文档评论(0)

150****6105 + 关注
实名认证
文档贡献者

硕士毕业生

1亿VIP精品文档

相关文档