主流大数据技术组件解读及高可用性部署.docx

主流大数据技术组件解读及高可用性部署.docx

? ? ? ? ? ? ? 主流大数据技术组件解读及高可用性部署 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 目 录 TOC \o 1-3 \h \z \u 主流大数据技术组件解读及高可用性部署 1 一、 前言 3 二、 大数据生态圈 3 1. Flume 4 2. Hive 4 3. HDFS 5 4. Kafka 5 5. MapReduce 5 6. Spark 5 7. Spark Streaming 6 8. HBase 6 9. Redis 7 10. Elasticsearch 7 11. YARN 7 12. ZooKeeper 8 三、 高可用性部署 8 1. 基于ZooKeeper集群的HA部署 8 2. 集群部署 12 四、 运行监控 14 1. 服务器状态监控 14 2. 服务监控 14 五、 应用场景 16 大数据已经成为推动经济社会发展的重要力量,同时也是解决民生问题的重要支撑。大数据技术值得每个企业和个人去深入了解。 一、 前言 近年来互联网的新业形态快速涌现,互联网金融和金融大数据快速发展,对经济提质增效的促进作用不断凸显。阿里巴巴、腾讯、百度等数据研发应用企业开始引领数据产业的发展。同时政府和科研机构也高度关注大数据。 2012年:广东省启动了《广东省实施大数据战略工作方案》;北京成立“中关村大数据产业联盟”。 2013年:科技部将大数据列入973基础研究计划;同年国家自然基金指南中亦将大数据列入其中。 2014年:“互联网金融”和“大数据”首次出现在全国两会的《政府工作报告》中。 2015年:国务院常务会通过《关于促进大数据发展的行动纲要》;国务院发布《促进大数据发展行动纲要》,系统部署大数据发展工作。 2016年,继国家发改委印发了《关于组织实施促进大数据发展重大工程的通知》后,环保部、国务院办公厅、国土资源部、国家林业局、煤工委、交通运输部、农业部均推出大数据发展意见和方案。 2017年:工业和信息化部发布《大数据产业发展规划(2016—2020年)》,加快实施国家大数据战略,推动大数据产业健康快速发展。 2018年:工信部发布《大数据标准化白皮书(2018)》。 当前,大数据已经成为推动经济社会发展的重要力量,同时也是解决民生问题的重要支撑。大数据技术值得每个企业和个人去深入了解。作者收集并整理部分优秀的大数据相关文献,汇集成本文。参考文献放在文末。 二、 大数据生态圈 大数据生态圈经过十余年的指数式发展,各种技术百花齐放,新技术迭代更新速度日益加快。暂且抛开各种眼花缭乱的新名词,大数据技术本质上解决的是5个核心问题。 (1)采集,海量的数据怎样快速批量的采集?主要的技术包括Flume、Logstash等。 (2)存储,海量的数据怎样可靠的存储?主要的技术包括Hive、HDFS和Kafka等。 (3)计算,海量的数据怎样快速准确的计算?主要的技术包括MapReduce、Spark、Spark Streaming、Storm和Flink等。 (4)查询,海量的数据怎样准确有效的查询?主要的技术分为Nosql和Olap。Nosql主要解决随机查询,包括Redis、Hbase、Cassandra 等。Olap技术主要解决关联查询,包括Kylin、impla等。同时基于索引技术实现快速查询的技术也很成熟,如Lucene和Elasticsearch等。 (5)挖掘,海量的数据怎样挖掘出隐藏的知识?也就是当前火热的机器学习和深度学习等技术,包括Spark ML、TensorFlow、Caffe、Mahout等。 同时,一些优秀的技术用于协调以上各个技术组件的协同工作,如Yarn和ZooKeeper等。本章节简要介绍其中一些有代表性的技术组件。 1. Flume Flume是一个分布式、高可靠和高可用的海量日志聚合系统,支持从各类数据发送方采集数据,同时也提供对数据的简单处理里能,并可以将处理后的数据定制化地写入各种数据接收方。例如,Flume可以采集文件、socket等多种形式的数据,并将采集到的数据输出到HDFS、Hbase、Hive、Kafka等多种组件中。并且Flume的管道是基于事务的,保证了数据在传送和接收时的一致性。Flume的另一个优势是当收集数据的速度超过数据接收方的最高写入速度时,Flume会在数据发送方和数据接收方之间做出调整,保证其能够在两者之间提供平稳的数据。 2. Hive Hive是建立在Hadoop基础上的开源数据仓库,提供类似SQL的HQL(Hive Query Language)语言对存储

文档评论(0)

1亿VIP精品文档

相关文档