大数据学习-基础篇.pdfVIP

  • 1
  • 0
  • 约1.37千字
  • 约 1页
  • 2023-09-17 发布于上海
  • 举报
⼤数据学习-基础篇 ⽂章⽬录 前⾔ 随着互联⽹的不断发展,⼤数据是互联⽹⾼速发展的产物。⼤数据的5V特点(IBM提出):Volume(⼤量)、Velocity(⾼速)、 Variety(多样)、Value(低价值密度)、Veracity(真实性)。⼤数据学习这门技术也越来越重要,很多⼈都开启了⼤数据开发之旅, 本⽂主要简单的介绍⼤数据开发学习的基础内容。 以下是本篇⽂章正⽂内容,主要介绍⼀下⼤数据开发学习的相关知识与学习路线,下⾯案例可供参考: ⼀、编程基础 ⼊门⼤数据开发有JavaSE基础是⽐较好的,⽬前也有很多JAVA后端开发的程序员转⾏来做⼤数据开发,有JAVA基础转来做⼤数据也是很 ⽅便的;另外我们也需要会⼀点Linux系统相关的知识以及SQL语句分析,整体编程基础要求如下: 1. JavaSE基础(包括⾯向对象、封装、继承、多态、多线程、IO、⽹络编程等相关知识); 2. SQL基础(掌握MySql的核⼼编程,增删改查、函数等内容); 3. Linux基础(能操作Linux系统,掌握基本的Linux命令); 4. Shell编程(有Linux基础的话很容易上⼿,也可以在实际开发中慢慢学习)。 ⼆、⼤数据核⼼框架 掌握⼤数据开发编程基础之后,我们就要开始学习⼤数据所涉及的核⼼框架学习了,包括⼤数据离线数仓和实时数仓处理技术: 1. ⼤数据之Hadoop基础(包括HDFS、yarn、mapreduce及相关调优等); 2. ⼤数据之Hive(数据仓库hive的基本使⽤,HQL基本语法、UDF函数、 ⾃定义UDF函数等); 3. ⼤数据之flume(数据采集flume,包括sources、channel、sink等); 4. ⼤数据之Kafka(分布式消息系统Kafka,包括Kafka主题、分区、⽣产者、消费者以及flume集成Kafka在项 ⽬中的应⽤等); 5. ⼤数据之HBase(分布式数据库HBase) ; 6. ⼤数据之zookeeper(分布式协调系统zookeeper,配合各个⼤数据组件之间的协调⼯作); 7. ⼤数据之spark技术(包括spark core 、 spark sql 、spark stream等); 8. ⼤数据之Flink技术(⼤数据实时数仓)。 当然了作为⼀名程序员也是要做好终⽣学习的准备的,⼤数据知识远远不⽌这些,需要我们⼀点⼀点的慢慢积累,时刻保持着好学的⼼态。 三、离线数仓和实时数仓 ⼤数据开发可以分为离线数仓和实时数仓,离线数仓的时效性没有实时数仓那么⾼,在实际开发过程中我们需要根据实际业务来选择 : 1. 离线数仓 :⼤数据的批处理 ; 2. 实时数仓 :⼤数据的流处理。 离线数仓也就是所谓的传统数仓,现在跟随⽹络流量的发展,⼤数据的实时数仓应⽤场景在⾼速发展,在实时数仓中flink技术也是⼤展⾝ ⼿。 总结 以上就是今天要讲的内容,本⽂仅仅简单介绍了⼤数据开发的相关基础知识与学习路线。另外希望⼤家在⼤数据学习的路上能碰到⼀群志同 道合的朋友,⼀起加油奋⽃啦。

文档评论(0)

1亿VIP精品文档

相关文档