- 13
- 0
- 约6.41千字
- 约 30页
- 2017-08-07 发布于湖北
- 举报
1.调度系统:整个数据链路的控制中心。承载着数万个作业的调度以及运维工作,这些作业包含同步数据源的同步作业和加工数据的计算作业(SQL\MR)。研发人员在调度系统上打包、发布、配置节点的父子依赖关系,以保障数据链路有序的执行。 2.数据源:主要来自两部分,一部分是日志数据,它包括用户的点击、浏览、收藏等等前台操作,这些数据通过前端的SPM埋点写入日志,由日志采集工具进行收集,最终同步到分布式计算平台上。另一部分是业务系统的数据,比如交易、用户中心这些源头数据存在前台业务的MYSQL,ORACLE库,通过同步工具(如阿里巴巴集团的datax工具)写入分布式计算平台。 3.分布式存储计算平台:分布式的计算和存储TB、PB级别的海量数据,全面支持基于SQL的数据处理。 如阿里巴巴的云梯系统(基于hadoop的海量数据存储与计算的系统,和开放数据处理服务 (Open Data Processing Service, ODPS) 阿里巴巴集团完全自主知识产权的云计算平台构建的数据存储与分析平台)数据开发人员在该平台上对数据进行深度加工和计算,最终将结果装载到输出表。 4.数据产出: 1)数据报表,为管理者、数据分析师提供决策支持,以及对外部的一些数据披露,如集团IPO财务报表。 2)回流业务系统,数据经过复杂的运算最终回流到前台数据库,在业务系统展现和反馈给外部用户。例如计算双11购车用户可
您可能关注的文档
最近下载
- 初二数学(北京版)-一次函数的概念.pptx VIP
- 昆明市2026公安机关辅警招聘考试笔试题库(含答案).docx VIP
- 初二数学(北京版)-函数图象的画法.pptx VIP
- 初二数学(北京版)-函数的表示法(第二课时).pptx VIP
- 初二数学(北京版)-函数的表示法(第一课时).pptx VIP
- 2025年军队专业技能岗位文职人员招聘考试(水电工兼维修工)历年参考题库含答案详解.docx VIP
- 道路设计 土木工程专业 优秀毕业设计(论文).doc VIP
- 企业数据资产化:会计确认与价值评估.pdf VIP
- 初二数学(北京版)-函数的概念(第二课时).pptx VIP
- 离婚登记申请受理回执单民法典版(可直接打印).pdf VIP
原创力文档

文档评论(0)