- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
闲聊大数据精要
1
闲聊大数据
2016-03
目录
1
Hadoop与Spark生态圈的介绍
数据采集
数据处理与数据存储
数据分析与数据挖掘、展示
实时处理应用案例
大数据集群环境部署与监控
1
spark生态体系
1
BDAS (伯克利数据分析栈)
Sqoop简介
1
Apache Sqoop是用来实现结构型数据(如关系数据库)和Hadoop之间进行数据迁移的工具。
通过map-reduce任务来传输数据,从而提供并发特性和容错。
Sqoop is a tool designed to transfer data between Hadoop and relational databases or mainframes. You can use Sqoop to import data from a relational database management system (RDBMS) such as MySQL or Oracle or a mainframe into the Hadoop Distributed File System (HDFS), transform the data in Hadoop MapReduce, and then export the data back into an RDBMS.
Flume简介
1
Flume是Cloudera提供的日志收集系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。
Source
Channel
sink
Kafka简介
1
Kafka是一种分布式的,基于发布/订阅的消息系统。主要设计目标如下:
1以时间复杂度为O(1)的方式提供消息持久化能力,即使对TB级以上数据也 能保证常数时间复杂度的访问性能。
2高吞吐率。即使在非常廉价的商用机器上也能做到单机支持每秒100K条以 上消息的传输。
3支持Kafka Server间的消息分区,及分布式消费,同时保证每个Partition内 的消息顺序传输。
4同时支持离线数据处理和实时数据处理。
Hbase简介
1
HBase是基于列存储、构建在HDFS上的分布式存储系统,其主要功能是存储海量结构化数据。实时数据平台介绍
特点:
1、大表:一个表可以有数十亿行,上百万列;
2、无模式:每行都有一个可排序的主键和任意多的列,列可以根据需要动态的增加,同一张表中不同的行可以有截然不同的列;
3、面向列:面向列(族)的存储和权限控制,列(族)独立检索;
4、稀疏:对于空(null)的列,并不占用存储空间,表可以设计的非常稀疏;
5、数据多版本:每个单元中的数据可以有多个版本,默认情况下版本号自动分配,是单元格插入时的时间戳;
6、数据类型单一:Hbase中的数据都是字符串,没有类型。
Phoenix(sql on hbase) 简介
1
Phoenix查询引擎会将SQL查询转换为一个或多个HBase scan,并编排执行以生成标准的JDBC结果集。直接使用HBase API、协同处理器与自定义过滤器,对于简单查询来说,其性能量级是毫秒,对于百万级别的行数来说,其性能量级是秒。
数据处理流程
1
数据处理流程
原始架构图
1
数据采集
1
数据处理与数据存储
1
broker1
Kafka Cluster
broker2
broker3
Spark
F
L
U
M
E
H
A
D
O
O
p
broker1
Kafka Cluster
broker2
broker3
Spark
F
L
U
M
E
H
A
D
O
O
p
HBase
数据消费
1
broker1
Kafka Cluster
broker2
broker3
Hadoop
实时计算
其它实时消费业务
离线计算
实时处理应用案例
1
架构图
实时处理应用案例
1
统计各运营商各频道的在线收看人数
日志上报特点:切台立即上报,持续播放每隔五分钟上报
技术方案:SparkStreaming+kafka+redis+HBase
Kafka消费:低阶API与高阶API
SparkStreaming window函数
实时处理应用案例
1
实时处理应用案例
1
实时处理应用案例
1
实时处理应用案例
1
大数据集群环境部署与监控
1
Puppet:开源的软件自动化配置和部署工具
Ganglia
Zenoss Zabbix Nagios
Zeus
1
大数据平台介绍
实时计算应用案例
实时数据平台介绍
关键环节详解
平台的意义
谢谢!
Thank you!
您可能关注的文档
- 门禁系统施工组织设计精要.docx
- 广东省江门市第一中学人教版高中历史必修三(课件)第22课文学的繁荣文科(共70张PPT)要点.ppt
- 广东省深圳市宝安区2016届九年级上学期期末数学试卷【解析版】要点.doc
- 广东省清远市2014—2015学年度高二第二学期期末考试政治试题要点.doc
- 广东省深圳市宝安区2016-2017学年高三第一学期调研测试物理试卷(含答案)要点.doc
- 门禁电梯管理系统方案精要.doc
- 广东省清远市第一中学2014-2015学年高一3月月考历史试题Word版含答案要点.doc
- 门禁系统软件需求说明书精要.doc
- 广东省清远市第一中学2014-2015学年高一历史3月月考试题要点.doc
- 门禁系统自主设计精要.docx
最近下载
- 髋臼骨缺损分型.pptx VIP
- 《全新版大学进阶英语综合教程》课程标准.pdf VIP
- 术后有效排痰护理PPT.pptx VIP
- 髋臼及股骨骨缺损的分型及评价【45页】.pptx VIP
- (人教A版)必修一数学高一上册第二章 一元二次函数、方程和不等式 章末总结+单元检测(原卷版).docx VIP
- 伟迪捷Videojet 1210 1510 操作员手册 2011年修订版.pdf
- 理论力学哈工大第六版-课件.ppt
- 2023年高考全国卷(甲卷)数学(理)真题(含解析).pdf VIP
- 虚体医学丛书:医说解集——昆明新空间1025实验室.pdf VIP
- 护理事业近五年发展规划(2026-2030).pdf VIP
文档评论(0)