闲聊大数据精要.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
闲聊大数据精要

1 闲聊大数据 2016-03 目录 1 Hadoop与Spark生态圈的介绍 数据采集 数据处理与数据存储 数据分析与数据挖掘、展示 实时处理应用案例 大数据集群环境部署与监控 1 spark生态体系 1 BDAS (伯克利数据分析栈) Sqoop简介 1 Apache Sqoop是用来实现结构型数据(如关系数据库)和Hadoop之间进行数据迁移的工具。 通过map-reduce任务来传输数据,从而提供并发特性和容错。 Sqoop is a tool designed to transfer data between Hadoop and relational databases or mainframes. You can use Sqoop to import data from a relational database management system (RDBMS) such as MySQL or Oracle or a mainframe into the Hadoop Distributed File System (HDFS), transform the data in Hadoop MapReduce, and then export the data back into an RDBMS. Flume简介 1 Flume是Cloudera提供的日志收集系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。 Source Channel sink Kafka简介 1 Kafka是一种分布式的,基于发布/订阅的消息系统。主要设计目标如下: 1以时间复杂度为O(1)的方式提供消息持久化能力,即使对TB级以上数据也 能保证常数时间复杂度的访问性能。 2高吞吐率。即使在非常廉价的商用机器上也能做到单机支持每秒100K条以 上消息的传输。 3支持Kafka Server间的消息分区,及分布式消费,同时保证每个Partition内 的消息顺序传输。 4同时支持离线数据处理和实时数据处理。 Hbase简介 1 HBase是基于列存储、构建在HDFS上的分布式存储系统,其主要功能是存储海量结构化数据。实时数据平台介绍 特点: 1、大表:一个表可以有数十亿行,上百万列; 2、无模式:每行都有一个可排序的主键和任意多的列,列可以根据需要动态的增加,同一张表中不同的行可以有截然不同的列; 3、面向列:面向列(族)的存储和权限控制,列(族)独立检索; 4、稀疏:对于空(null)的列,并不占用存储空间,表可以设计的非常稀疏; 5、数据多版本:每个单元中的数据可以有多个版本,默认情况下版本号自动分配,是单元格插入时的时间戳; 6、数据类型单一:Hbase中的数据都是字符串,没有类型。  Phoenix(sql on hbase) 简介 1 Phoenix查询引擎会将SQL查询转换为一个或多个HBase scan,并编排执行以生成标准的JDBC结果集。直接使用HBase API、协同处理器与自定义过滤器,对于简单查询来说,其性能量级是毫秒,对于百万级别的行数来说,其性能量级是秒。 数据处理流程 1 数据处理流程 原始架构图 1 数据采集 1 数据处理与数据存储 1 broker1 Kafka Cluster broker2 broker3 Spark F L U M E H A D O O p broker1 Kafka Cluster broker2 broker3 Spark F L U M E H A D O O p HBase 数据消费 1 broker1 Kafka Cluster broker2 broker3 Hadoop 实时计算 其它实时消费业务 离线计算 实时处理应用案例 1 架构图 实时处理应用案例 1 统计各运营商各频道的在线收看人数 日志上报特点:切台立即上报,持续播放每隔五分钟上报 技术方案:SparkStreaming+kafka+redis+HBase Kafka消费:低阶API与高阶API SparkStreaming window函数 实时处理应用案例 1 实时处理应用案例 1 实时处理应用案例 1 实时处理应用案例 1 大数据集群环境部署与监控 1 Puppet:开源的软件自动化配置和部署工具 Ganglia Zenoss Zabbix Nagios Zeus 1 大数据平台介绍 实时计算应用案例 实时数据平台介绍 关键环节详解 平台的意义 谢谢! Thank you!

文档评论(0)

shuwkb + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档