技术质量部-力霖.ppt
1.调度系统:整个数据链路的控制中心。承载着数万个作业的调度以及运维工作,这些作业包含同步数据源的同步作业和加工数据的计算作业(SQL\MR)。研发人员在调度系统上打包、发布、配置节点的父子依赖关系,以保障数据链路有序的执行。 2.数据源:主要来自两部分,一部分是日志数据,它包括用户的点击、浏览、收藏等等前台操作,这些数据通过前端的SPM埋点写入日志,由日志采集工具进行收集,最终同步到分布式计算平台上。另一部分是业务系统的数据,比如交易、用户中心这些源头数据存在前台业务的MYSQL,ORACLE库,通过同步工具(如阿里巴巴集团的datax工具)写入分布式计算平台。 3.分布式存储计算平台:分布式的计算和存储TB、PB级别的海量数据,全面支持基于SQL的数据处理。 如阿里巴巴的云梯系统(基于hadoop的海量数据存储与计算的系统,和开放数据处理服务 (Open Data Processing Service, ODPS) 阿里巴巴集团完全自主知识产权的云计算平台构建的数据存储与分析平台)数据开发人员在该平台上对数据进行深度加工和计算,最终将结果装载到输出表。 4.数据产出: 1)数据报表,为管理者、数据分析师提供决策支持,以及对外部的一些数据披露,如集团IPO财务报表。 2)回流业务系统,数据经过复杂的运算最终回流到前台数据库,在业务系统展现和反馈给外部用户。例如计算双11购车用户可
原创力文档

文档评论(0)