Hadoop暴风数据平台简介赵修湘幻灯片.pptVIP

  • 1
  • 0
  • 约1.39千字
  • 约 18页
  • 2018-03-26 发布于未知
  • 举报

Hadoop暴风数据平台简介赵修湘幻灯片.ppt

暴风数据平台简介 暴风平台研发组 赵修湘 基于hadoop的数据平台总体架构 数据平台之IUPushRsync IUPushRsync 程序利用rsync -U 命令对日志文件进行增量式同步,其优点在于:1)准实时数据压缩传输(降低宽带占用);2)数据完整性检验 数据平台之Hload Hload程序主要实现将日志文件拷贝到hadoop集群,支持lzo压缩和失败恢复 数据平台之HCRush HCRush程序是一个基于mapred的、通用的日志清洗框架。其优点在于:1)日志清洗配置化(在添加新的日志清洗业务和修改清洗规则时,只需要修改配置文件,不需要修改主程序);2)利用了hadoop的强大运算能力;3)失败恢复功能 数据平台之ComETL ComETL 程序实现将hive数据仓库中的数据,根据hql语句规则,提取到目标mysql数据库中,并针对特定类型的查询进行优化。优化案例:daily5统计业务,优化前需要执行上百个hql查询,总花费时间约为2小时,优化后只需执行2个hql查询,总花费时间约为十分钟。 数据平台之FileMonitor和DwMonitor FileMonitor 实现对采集层和汇聚层的日志监控 DwMonitor 实现对数据仓库层(hive)的日志监控 hadoop云计算平台是什么 Hadoop 是一个能够对PB级数据进行分布式 并行处理的软件框架。hadoop

文档评论(0)

1亿VIP精品文档

相关文档