企业大数据平台功能优化方案
目录
1. 平台优化方案3
1.1 概述3
1.2 优化完善方案3
1.2.1 数据层优化完善3
1.2.2 数据服务及优化15
2. 其他功能描述16
2.1 其他优化需求16
2.2 非功能性需求16
2.2.1 范围16
2.2.2 可用性17
2.2.3 易用性17
2.2.4 可维护性18
2.2.5 低耦合性19
2.2.6 可伸缩性19
2.2.7 架构约束19
1. 平台优化方案
1.1 概述
优化完善和运维方案重点描述我公司在本项目实施过程中针对于大数据云
平台按照招标文件的要求是如何开展运维服务和优化完善先关工作的,将分别从
平台层、数据层、功能应用优化、数据服务优化等多个维度展开相应的叙述。
1.2 优化完善方案
1.2.1 数据层优化完善
1.2.1.1 数据集成优化完善
数据集成运维的优化有以下2 个方面:源端的优化、平台端的优化
1.2.1.1.1 源端的优化
对于数据集成的源端优化来说,最重要的是对于要接入云平台进行抽取的数
据源进行安全策略的开通,这个步骤实施的时间长短直接影响到数据集成的效率
乃至后续的加工流程。此过程建议源端省局配置相关的对接人,当有需求提出的
时候,尽量在规定时间内进行需求的响应。
其次,源端的带宽也是一个重要的影响因素,因为每个省局的数据库的配置
和网络不同,存在一些硬件上的差异,导致了各单位数据集成的结束时间不一致。
在资源允许的情况下,建议将配置或带宽配置到最优,这样能保证云平台对数据
集成的最高效。
1.2.1.1.2 平台端的优化
对于每日的数据集成运行情况,开发任务监控平台,通过此平台的监控可以
查看到各单位的部署的不同任务大类下的任务运行情况。此平台功能包括失败任
务的重跑,日志查看等。此平台的查询效率要比odps 的高,时效性较好,对于
日常任务的运维效率提升较大。
任务监控平台后续增加但不限于日常调度任务的数据量的比对功能,通过对
比源端和目标端集成的某个时间点的数据量,可将有差异的单位对应的表进行显
示。
任务监控平台后续增加但不限于全量任务的初始化功能,通过前台页面的点
击事件就可以做到数据的修复以及完善,保证数据的高可用、高准确性。
任务监控平台后续增加但不限于表结构的对比功能,通过前台的展示页面,
可以看到源端和目标端的字段级别的差异,哪一天新增了,修改了,删除了哪些
字段,为下游的供数提供支持。
因为源端的某些表存在不定期的删除数据的情况,导致云平台在进行切片抽
取的情况下,会产生差异,建议源端对于一些会删数据的表对总局这边进行通知,
将这些会删除数据的表进行一个统计,在进行差异比对的时候可以有所参考。
1.2.1.1.3 数据集成链路优化
目前税务的业务系统都是部署在省局的单位的,如何把省局的数据准确快速
的传输到总局的云平台进行数据分析是一个非常有挑战性的工作。目前从地方单
位到总局的数据链路是基于【生产库-分发库-副本库-云平台】链路,下阶段计
划将链路修改为【生产库-分发库-云平台】链路。
两种数据链路的对比图。
旧的数据链路总局云平台是从分发库通过 ADG 链路传输到总局南海机房的
副本库,云平台使用datax 直接抽取副本库中的数据。新的数据链路是分发库通
过OGG 把增量数据文件落地文本,压缩后传输到总局南海机房,再使用datax 传
输到云平台。
两个链路比较:
一、捕获数据变化。旧的链路捕获数据变化的方式,更新与插入主要靠业务
库同步到分发库后数据写入时的数据同步时间识别,删除只能通过同步全表主键
的方式识别。因为删除识别需要获取大表全量数据的效率很难保障在8 个小时内
都完成,对时效性有巨大的牺牲。新的链路自然在数据中就都捕获到了增量数据
的记录插入、修改、删除三种变化状态,默认就能识别删除。所以,理论时效性
会大大优于旧的链路。
二
您可能关注的文档
最近下载
- 船舶柴油机装配与调试章节及期末答案.docx VIP
- FOCUS-PDCA原理及流程完整版.pptx VIP
- 整顿劳动纪律实施方案.docx VIP
- 深度解析(2026)《YCT 223.1-2014 特种滤棒 第 1 部分:醋纤沟槽滤棒》.pptx VIP
- 2025年新疆中考语文第二次模拟考试(附答案) .pdf VIP
- 冀教版(新教材)七年级下册英语Unit 5《Our neighbourhood》Lesson 1教学课件.pptx
- 2024年中考模拟试卷语文(新疆卷).docx VIP
- 立足教材开展小学音乐跨学科学习的方式与路径.docx VIP
- 2024新疆中考模拟语文试题(附参考答案) .pdf VIP
- 煤矿劳动纪律整顿实施方案.docx VIP
原创力文档

文档评论(0)