大数据采集整编系统解决方案.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

大数据采集整编系统解决方案

一、系统功能概述

数据采集整编子系统主要包括通用数据填报、网络情报数

据采集和数据整编等三大模块,系统架构如下图:

二、数据流转块设计

如上图所示,通过通用的报表软件,支持多样化、个性化

设置,统一访问管理模板,实现自定义报表的数据采集功能,

提升数据采集效率。部署互联网、行业网等数据采集Scrapy

引擎以及采集配置管理系统、数据库和文件系统。基于配置的

采集规则(网站URL、采集时间设置等),Scrapy引擎抓取

网站数据并存于本地数据库和文件系统中。爬取的互联网等网

络数据结果以文件形式传输至内网侧,数据服务平台的ETL

工具将内网侧的互联网爬虫数据,批量抽取到数据仓库集群中。

经分类整合加工、创建索引处理后将互联网、综网数据存储在

数据库中。

三、通用数据采集

依据XX各部门业务工作过程中数据采集报送的通用需求,

设计完成需求的采报流程,提供可视化的数据采报需求管理、

快速易用的任务列表方便用户快速进行任务的查看并执行任务

的相关操作,可组合多个条件进行任务查询筛选过滤功能,提

供可视化的采报任务管理、可视化拖拉拽的报表设计及管理功

能、数据采集、数据转存和系统管理等功能。

提供数据需求提报的手段,为战略规划办制定年度采报计

划或临时启动采报任务提供需求依据。数据来自采集终端形成

的数据报表和数据文件、存储在各种业务数据库/数据仓库中

的结构化数据,以及HTML/XML/JSON/BSON等各类半结构

化、pdf文档、word文档、图片、多媒体等非结构化海量数据。

四、网络情报数据采集

网络情报数据采集系统负责面向网络采集以网页文件为主

的数据资源采集相关数据等,可通过配置信息,将分散在不同

网络海量网页素材的数据统一采集,并实现数据的动态更新,

监控数据采集进度,采集日志信息查询,采集任务结果展示,

以及对采集任务的启停功能的控制。

如下图所示,作业管理工具作为数据预处置惩罚的图形化

工具,采用web交互的方式,提供工作流的调剂完成数据接

入和数据流转ETL,可视化界面完成对肇端站点的配置,完

成日常采集任务的控制,任务执行状态及时间的监控,启停功

能监控,和任务采集的日志维护。

五、数据整编模块

依据战略规划数据资源体系相关的标准规范,对于从不同

渠道采集来的数据进行数据抽取与加载、洗濯与转换、集成与

约简。可适配各种数据源,可直接从Oracle/DB2等传统关系

数据库将数据导入至数据服务平台,在不失效率的情况下避免

了利用Sqoop带了的步骤繁琐,类型转换庞大等应用处景。

支持CSV,定长文件,JSON,XML等文件的导入。

如下图所示,数据清洗工作是独立于业务库,是在不影响

业务库的情况下进行的。通过数据清洗融合工作把脏数据清洗

掉,提高数据质量,便于清洗后数据在数据模型当中呈现,变

为“干净库”。数据转换,基于规则或元数据的转换、基于模型

与研究的转换等技术,可通过转换实现数据统一。数据分析工

具可实现数据校验、数据缺失值处理、数据去重、数据过滤、

数据光滑去噪、数据补全、数据格式和精度转换等功能。

数据清洗前,对业务逻辑进行梳理,在数据模型的指导下,

编制信息资源库的目录,并设计清洗规则。根据数据问题的特

性,对于可通过技术方式修复的数据,借助ETL工具进行清

洗,对于不可技术修复的数据,借助工单系统进行人工清洗。

清洗的结果是数据治理成果的体现,要对省战略规划部进行反

馈,同时为了保障清洗规则的准确,需要周期性检测清洗规则,

对有缺陷的规则进行调整优化。

6、可视化处置惩罚工作流设计

可视化工作流调剂工具可以可视化进行数据处置惩罚工作

流的设计,对数据处置惩罚计划进行任务化管理,完成执行日

志记录和审计,多任务运行资源自动调剂等功能。工作流调剂

DAG设计与管理的图形化工具,支持Shell、SQL、JDBC、

HTTP等任务类型,和自界说Java任务。用户设定好任务执行

的逻辑执行顺序以后,可以自动运行工作流上的离线批处置惩

罚任务。

文档评论(0)

162****6581 + 关注
实名认证
文档贡献者

一线教师,长期在一线从事教学工作。

1亿VIP精品文档

相关文档