暴风大数据平台架构.ppt

暴风数据平台简介 基于hadoop的数据平台总体架构 数据平台之IUPushRsync IUPushRsync 程序利用rsync -U 命令对日志文件进行增量式同步,其优点在于:1)准实时数据压缩传输(降低宽带占用);2)数据完整性检验 数据平台之Hload Hload程序主要实现将日志文件拷贝到hadoop集群,支持lzo压缩和失败恢复 数据平台之HCRush HCRush程序是一个基于mapred的、通用的日志清洗框架。其优点在于:1)日志清洗配置化(在添加新的日志清洗业务和修改清洗规则时,只需要修改配置文件,不需要修改主程序);2)利用了hadoop的强大运算能力;3)失败恢复功能 数据平台之ComETL ComETL 程序实现将hive数据仓库中的数据,根据hql语句规则,提取到目标mysql数据库中,并针对特定类型的查询进行优化。优化案例:daily5统计业务,优化前需要执行上百个hql查询,总花费时间约为2小时,优化后只需执行2个hql查询,总花费时间约为十分钟。 数据平台之FileMonitor和DwMonitor FileMonitor 实现对采集层和汇聚层的日志监控 DwMonitor 实现对数据仓库层(hive)的日志监控 hadoop云计算平台是什么 Hadoop 是一个能够对PB级数据进行分布式 并行处理的软件框架。hadoop能够同时提供 数据存储和运算上的备份,并提供多种数据 访问和运算接口:mapred编程框架、hive数 据仓库(类似于MySQL)、pig数据流编程 语言、fuse(将HDFS文件系统挂载成普通文 件系统) 数据平台之hadoop 数据量持续增长 分析能力不够 大量的重复工作 无法分析长时间的数据 缺乏对数据分析的工具 服务器负载不均衡 为什么我们需要hadoop…… 数据平台之hadoop 轻松处理100G数据量,大量的中间件pig/hive减少分析人员自行编写脚本的数据 HADOOP集群优点 热插拔节点对集群的存储和计算无影响 有着上千台节点的成功应用案例 数据平台之hadoop hadoop提供hive/pig/hbase等多种数据(仓)库功能,其中hive支持的HQL语言是一种类似于SQL的语言,使得分析人员能够很快的从mysql/oracle等传统数据库转向hive hadoop几乎支持现在流行的所有编程语言,java\python\perl\c++等都可以使用hadoop集群提供的服务 使得分析人员能够方便快捷的分析超大数据量(TB级) HADOOP集群 可用性 mapred编程模型 丰富的编程接口 多种数据(仓)库支持 HADOOP集群扩展性 支持热插拔节点 支持超大集群 硬件要求低 数据平台之hadoop hadoop集群可维护性 数据平台之hadoop HADOOP演示 集群运算资源概览 正在运行的mapred任务 数据平台之hadoop HADOOP演示 集群存储资源概览 数据平台之hadoop HADOOP性能演示 统计业务迁移至hadoop平台 数据平台之hadoop 数据量持续增长 分析能力不够 大量的重复工作 无法分析长时间的数据 缺乏对数据分析的工具 服务器负载不均衡 HADOOP帮我们解决了以下问题…… 谢谢!

文档评论(0)

1亿VIP精品文档

相关文档