- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
大数据采集整编系统解决方案
一、系统功能概述
数据采集整编子系统主要包括通用数据填报、网络情报数
据采集和数据整编等三大模块,系统架构如下图:
二、数据流转块设计
如上图所示,通过通用的报表软件,支持多样化、个性化
设置,统一访问管理模板,实现自定义报表的数据采集功能,
提升数据采集效率。部署互联网、行业网等数据采集Scrapy
引擎以及采集配置管理系统、数据库和文件系统。基于配置的
采集规则(网站URL、采集时间设置等),Scrapy引擎抓取
网站数据并存于本地数据库和文件系统中。爬取的互联网等网
络数据结果以文件形式传输至内网侧,数据服务平台的ETL
工具将内网侧的互联网爬虫数据,批量抽取到数据仓库集群中。
经分类整合加工、创建索引处理后将互联网、综网数据存储在
数据库中。
三、通用数据采集
依据XX各部门业务工作过程中数据采集报送的通用需求,
设计完成需求的采报流程,提供可视化的数据采报需求管理、
快速易用的任务列表方便用户快速进行任务的查看并执行任务
的相关操作,可组合多个条件进行任务查询筛选过滤功能,提
供可视化的采报任务管理、可视化拖拉拽的报表设计及管理功
能、数据采集、数据转存和系统管理等功能。
提供数据需求提报的手段,为战略规划办制定年度采报计
划或临时启动采报任务提供需求依据。数据来自采集终端形成
的数据报表和数据文件、存储在各种业务数据库/数据仓库中
的结构化数据,以及HTML/XML/JSON/BSON等各类半结构
化、pdf文档、word文档、图片、多媒体等非结构化海量数据。
四、网络情报数据采集
网络情报数据采集系统负责面向网络采集以网页文件为主
的数据资源采集相关数据等,可通过配置信息,将分散在不同
网络海量网页素材的数据统一采集,并实现数据的动态更新,
监控数据采集进度,采集日志信息查询,采集任务结果展示,
以及对采集任务的启停功能的控制。
如下图所示,作业管理工具作为数据预处置惩罚的图形化
工具,采用web交互的方式,提供工作流的调剂完成数据接
入和数据流转ETL,可视化界面完成对肇端站点的配置,完
成日常采集任务的控制,任务执行状态及时间的监控,启停功
能监控,和任务采集的日志维护。
五、数据整编模块
依据战略规划数据资源体系相关的标准规范,对于从不同
渠道采集来的数据进行数据抽取与加载、洗濯与转换、集成与
约简。可适配各种数据源,可直接从Oracle/DB2等传统关系
数据库将数据导入至数据服务平台,在不失效率的情况下避免
了利用Sqoop带了的步骤繁琐,类型转换庞大等应用处景。
支持CSV,定长文件,JSON,XML等文件的导入。
如下图所示,数据清洗工作是独立于业务库,是在不影响
业务库的情况下进行的。通过数据清洗融合工作把脏数据清洗
掉,提高数据质量,便于清洗后数据在数据模型当中呈现,变
为“干净库”。数据转换,基于规则或元数据的转换、基于模型
与研究的转换等技术,可通过转换实现数据统一。数据分析工
具可实现数据校验、数据缺失值处理、数据去重、数据过滤、
数据光滑去噪、数据补全、数据格式和精度转换等功能。
数据清洗前,对业务逻辑进行梳理,在数据模型的指导下,
编制信息资源库的目录,并设计清洗规则。根据数据问题的特
性,对于可通过技术方式修复的数据,借助ETL工具进行清
洗,对于不可技术修复的数据,借助工单系统进行人工清洗。
清洗的结果是数据治理成果的体现,要对省战略规划部进行反
馈,同时为了保障清洗规则的准确,需要周期性检测清洗规则,
对有缺陷的规则进行调整优化。
6、可视化处置惩罚工作流设计
可视化工作流调剂工具可以可视化进行数据处置惩罚工作
流的设计,对数据处置惩罚计划进行任务化管理,完成执行日
志记录和审计,多任务运行资源自动调剂等功能。工作流调剂
DAG设计与管理的图形化工具,支持Shell、SQL、JDBC、
HTTP等任务类型,和自界说Java任务。用户设定好任务执行
的逻辑执行顺序以后,可以自动运行工作流上的离线批处置惩
罚任务。
您可能关注的文档
- 精选XXX《科学与技术(本)》形考任务1试题及答案.pdf
- 网络营销话术.pdf
- 2022年吉林大学环境科学与工程专业《环境监测》科目期末试卷A(有答案).pdf
- 统编版小学语文六年级上册9竹节教案.pdf
- 新部编版一年级语文上册三单元测试卷及答案【汇总】.pdf
- 2023年牛津译林苏教版六年级英语上册Unit5 Signs单元测试卷.pdf
- 临时用电招标文件.pdf
- 有趣的纸作文.pdf
- 2022年中级经济师《运输经济》试题及答案(新版).pdf
- 江苏省泰兴市2022-2023学年八年级上学期期中考试英语试卷.pdf
- 教科版新科学三年级上册科学期末测试卷(含答案).pdf
- 2024员工三级安全培训考试题附完整答案(全国通用).pdf
- 计算机组成原理 第二版 唐朔飞著 课后习题详解.pdf
- 2023年高三数学一轮复习计划.pdf
- 2023年税务师《涉税服务实务》模拟试题一税务代理实务税务师.pdf
- 小学精五年级下册信息技术教案第二单元 第6课 《算法初步》 浙江摄影版(2020).pdf
- 深度学习中的卷积神经网络研究及其应用.pdf
- 优化初中《道德与法治》课程作业的思考与设计最新教育文档.pdf
- 北师大版六上7.2《百分数的应用(二)》分层作业.pdf
- 青少年编程等级考试∶Python编程三级试卷6精品.pdf
最近下载
- 兴边富民工程实施方案(3篇).docx
- 苏科版八年级数学上册压轴题攻略专题03解题技巧专题:判定三角形全等的基本思路压轴题三种模型全攻略(原卷版+解析).docx VIP
- 卡通手绘风班干部竞选自我介绍PPT模板(二零二五学期版).pptx VIP
- 带锯机安全生产操作规程.pptx
- 第3课 古代印度 课件(共34张PPT).pptx VIP
- 公共政策3政策的资料搜集与方法剖析.ppt VIP
- 专题04 解题技巧专题:判定三角形全等的基本思路压轴题三种模型全攻略(解析版).docx VIP
- 2025年健康管理师技能证书全国考试题库(含答案).pdf VIP
- 写景抒情散文阅读.doc VIP
- 中小学班级卫生值日表 模板.docx VIP
文档评论(0)