大型大数据集群维护指南饿了么大数据平台运维本文主要介绍饿了么大数据团队如何通过对计算引擎入口的统一,降低用户接入门槛;如何让用户自助分析任务异常及失败原因,以及如何从集群产生的任务数据本身监控集群计算/存储资源消耗,监控集群状况,监控异常任务等。饿了么 BDI-大数据平台研发团队目前共有 20 人左右,主要负责离线实时 Infra 和平台工具开发。其中 6 人的离线团队需要维护大数据集群规模如下:Hadoop 集群规模 1300+HDFS 存量数据 40+PB,Read 3.5 PB+/天,Write 500TB+/天14W MR Job/天,10W Spark Job/天,25W Presto/天此外还需要维护 Hadoop、Spark、Hive、Presto 等饿了么内部版本组件,解决公司 400+ 大数据集群用户每天面临的各种问题。引擎入口统一目前在饿了么对外提供的查询引擎主要有 Presto、Hive 和 Spark,其中 Spark 又有 Spark Thrift Server 和 Spark SQL 两种模式。并且 Kylin 也在稳步试用中,Druid 也正在调研中。各种计算引擎都有自身的优缺点,适用的计算场景各不相同。从用户角度来说,普通用户对此没有较强的辨识能力,学习成本会比较高。并且当用户可以自主选择引擎执行任务时,会优先选择所谓的最快引擎,而这势必会造成引擎阻
原创力文档

文档评论(0)