闲聊大数据精要.pptx

下载文档 降价啦

4
0
约1.98千字
约 22页
2017-05-12 发布于湖北
举报
版权申诉
保障服务

闲聊大数据精要.pptx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

闲聊大数据精要

1 闲聊大数据 2016-03 目录 1 Hadoop与Spark生态圈的介绍数据采集数据处理与数据存储数据分析与数据挖掘、展示实时处理应用案例大数据集群环境部署与监控 1 spark生态体系 1 BDAS (伯克利数据分析栈) Sqoop简介 1 Apache Sqoop是用来实现结构型数据（如关系数据库）和Hadoop之间进行数据迁移的工具。通过map-reduce任务来传输数据，从而提供并发特性和容错。 Sqoop is a tool designed to transfer data between Hadoop and relational databases or mainframes. You can use Sqoop to import data from a relational database management system (RDBMS) such as MySQL or Oracle or a mainframe into the Hadoop Distributed File System (HDFS), transform the data in Hadoop MapReduce, and then export the data back into an RDBMS. Flume简介 1 Flume是Cloudera提供的日志收集系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。 Source Channel sink Kafka简介 1 Kafka是一种分布式的，基于发布/订阅的消息系统。主要设计目标如下： 1以时间复杂度为O(1)的方式提供消息持久化能力，即使对TB级以上数据也能保证常数时间复杂度的访问性能。 2高吞吐率。即使在非常廉价的商用机器上也能做到单机支持每秒100K条以上消息的传输。 3支持Kafka Server间的消息分区，及分布式消费，同时保证每个Partition内的消息顺序传输。 4同时支持离线数据处理和实时数据处理。 Hbase简介 1 HBase是基于列存储、构建在HDFS上的分布式存储系统，其主要功能是存储海量结构化数据。实时数据平台介绍特点： 1、大表：一个表可以有数十亿行，上百万列； 2、无模式：每行都有一个可排序的主键和任意多的列，列可以根据需要动态的增加，同一张表中不同的行可以有截然不同的列； 3、面向列：面向列（族）的存储和权限控制，列（族）独立检索； 4、稀疏：对于空（null）的列，并不占用存储空间，表可以设计的非常稀疏； 5、数据多版本：每个单元中的数据可以有多个版本，默认情况下版本号自动分配，是单元格插入时的时间戳； 6、数据类型单一：Hbase中的数据都是字符串，没有类型。 Phoenix(sql on hbase) 简介 1 Phoenix查询引擎会将SQL查询转换为一个或多个HBase scan，并编排执行以生成标准的JDBC结果集。直接使用HBase API、协同处理器与自定义过滤器，对于简单查询来说，其性能量级是毫秒，对于百万级别的行数来说，其性能量级是秒。数据处理流程 1 数据处理流程原始架构图 1 数据采集 1 数据处理与数据存储 1 broker1 Kafka Cluster broker2 broker3 Spark F L U M E H A D O O p broker1 Kafka Cluster broker2 broker3 Spark F L U M E H A D O O p HBase 数据消费 1 broker1 Kafka Cluster broker2 broker3 Hadoop 实时计算其它实时消费业务离线计算实时处理应用案例 1 架构图实时处理应用案例 1 统计各运营商各频道的在线收看人数日志上报特点：切台立即上报，持续播放每隔五分钟上报技术方案：SparkStreaming+kafka+redis+HBase Kafka消费：低阶API与高阶API SparkStreaming window函数实时处理应用案例 1 实时处理应用案例 1 实时处理应用案例 1 实时处理应用案例 1 大数据集群环境部署与监控 1 Puppet:开源的软件自动化配置和部署工具 Ganglia Zenoss Zabbix Nagios Zeus 1 大数据平台介绍实时计算应用案例实时数据平台介绍关键环节详解平台的意义谢谢！ Thank you!