HYPERLINK /yuexianchang/article/details[置顶] 大数据经典学习路线(及供参考)
1.Linux基础和分布式集群技术
学完此阶段可掌握的核心能力:
熟练使用Linux,熟练安装Linux上的软件,了解熟悉负载均衡、高可靠等集群相关概念,搭建互联网高并发、高可靠的服务架构;
学完此阶段可解决的现实问题:
搭建负载均衡、高可靠的服务器集群,可以增大网站的并发访问量,保证服务不间断地对外服务;
学完此阶段可拥有的市场价值:
具备初级程序员必要具备的Linux服务器运维能力。
1.内容介绍:
在大数据领域,使用最多的操作系统就是Linux系列,并且几乎都是分布式集群。
该课程为大数据的基础课程,主要介绍Linux操作系统、Linux常用命令、Linux常用软件安装、Linux网络、防火墙、Shell编程等。
2.案例:搭建互联网高并发、高可靠的服务架构。
2.离线计算系统课程阶段
1. 离线计算系统课程阶段
1.HADOOP核心技术框架
学完此阶段可掌握的核心能力:
1、通过对大数据技术产生的背景和行业应用案例了解hadoop的作用;
2、掌握hadoop底层分布式文件系统HDFS的原理、操作和应用开发;
3、掌握MAPREDUCE分布式运算系统的工作原理和分布式分析应用开发;
4、掌握HIVE数据仓库工具的工作原理及应用开发。
学完此阶段可解决的现实问题:
1、熟练搭建海量数据离线计算平台;
2、根据具体业务场景设计、实现海量数据存储方案;
3、根据具体数据分析需求实现基于mapreduce的分布式运算程序;
学完此阶段可拥有的市场价值:
具备企业数据部初级应用开发人员的能力
1.1 HADOOP快速入门
1.1.1 hadoop知识背景
什么是hadoop、hadoop产生背景、hadoop在大数据云计算中的位置和关系、国内hadoop的就业情况分析及课程大纲介绍
国内外hadoop应用案例介绍
分布式系统概述、hadoop生态圈及各组成部分的简介
1.1.2 HIVE快速入门
hive基本介绍、hive的使用、数据仓库基本知识
1.1.3 数据分析流程案例
web点击流日志数据挖掘的需求分析、数据来源、处理流程、数据分析结果导出、数据展现
1.1.4 hadoop数据分析系统集群搭建
集群简介、服务器介绍、网络环境设置、服务器系统环境设置、JDK环境安装、hadoop集群安装部署、集群启动、集群状态测试
HIVE的配置安装、HIVE启动、HIVE使用测试
1.2 HDFS详解
1.2.1 HDFS的概念和特性
什么是分布式文件系统、HDFS的设计目标、HDFS与其他分布式存储系统的优劣势比较、HDFS的适用场景
1.2.2 HDFS的shell操作
HDFS命令行客户端启动、HDFS命令行客户端的基本操作、命令行客户端支持的常用命令、常用参数介绍
1.2.3 HDFS的工作机制
HDFS系统的模块架构、HDFS写数据流程、HDFS读数据流程
NAMENODE工作机制、元数据存储机制、元数据手动查看、元数据checkpoint机制、NAMENODE故障恢复、DATANODE工作机制、DATANODE动态增减、全局数据负载均衡
1.2.4 HDFS的java应用开发
搭建开发环境、获取api中的客户端对象、HDFS的java客户端所具备的常用功能、HDFS客户端对文件的常用操作实现、利用HDFS的JAVA客户端开发数据采集和存储系统
1.3 MAPREDUCE详解
1.3.1 MAPREDUCE快速上手
为什么需要MAPREDUCE、MAPREDUCE程序运行演示、MAPREDUCE编程示例及编程规范、MAPREDUCE程序运行模式、MAPREDUCE程序调试debug的几种方式
1.3.2 MAPREDUCE程序的运行机制
MAPREDUCE程序运行流程解析、MAPTASK并发数的决定机制、MAPREDUCE中的combiner组件应用、MAPREDUCE中的序列化框架及应用、MAPREDUCE中的排序、MAPREDUCE中的自定义分区实现、MAPREDUCE的shuffle机制、MAPREDUCE利用数据压缩进行优化、MAPREDUCE程序与YARN之间的关系、MAPREDUCE参数优化
通过以上各组件的详解,深刻理解MAPREDUCE的核心运行机制,从而具备灵活应对各种复杂应用场景的能力
MAPREDUCE实战编程案例:通过一个实战案例来熟悉复杂MAPREDUCE程序的开发。该程序是从nginx服务器产生的访问服务器中计算出每个访客的访问次数及每次访问的时长。原始数据样例如下:
通过一系列的MAPREDUCE程序——清洗、过滤、访问次数及时间分析,最终计
您可能关注的文档
- 大工软院编译上机1词法分析.doc
- 大规模路由网络课程设计实现.doc
- 大规模数据集成使用RDF创建数据网络.docx
- 大河流域的文明曙光.doc
- 大红山铜矿工艺技术规程汇编.docx
- 大伙房水库输水应急入连工程-鞍山、盖州泵站电气和阀门管件成套设备采购招标文件.doc
- 大机基题目整理.docx
- 大机选择含答案.doc
- 大机作业选择题(1).docx
- 大计基知识点.docx
- 语文湖南长沙市炎德英才大联考雅礼中学2026届高三月考试卷(五)(1.6-1.7).docx
- 物理辽宁名校联盟2026届高三年级上学期期末质量检测(1.15-1.16).docx
- 化学湖北荆州中学2025-2026学年高二上学期12月月考(12.24-12.25).docx
- 化学陕西2026年宝鸡市高考模拟检测试题(一)(宝鸡一模)(1.10-1.11).docx
- FANUC机器人 iRVision 智能视觉.pdf
- FANUC机器人点焊-培训教材.pdf
- KUKA电气元器件检修.pdf
- 发那科机器人设置辅助功能FANUC.pdf
- FANUC机器人弧焊教程.pdf
- FANUC双驱及多位置标定功能指导手册.pdf
最近下载
- 安徽省合肥市名校联考2026届数学八年级第一学期期末教学质量检测模拟试题含解析.doc VIP
- 2025年山西职业单招考试真题及答案 完整版2025.pdf VIP
- 区块链基本概念.pptx VIP
- 2021年度“双一流”建设专项资金绩效评价自评报告.pdf VIP
- 劳动法案例分析及参考答案.docx VIP
- 广西左江治旱黑水河现代化灌区工程环境影响报告书.pdf VIP
- FDA热效应评估指南(中文翻译件) thermal effects evaluation.pdf VIP
- 华东理工大学双一流建设中期自评报告.PDF VIP
- 项目环境与职业健康安全管理工作计划.doc VIP
- 人人商城恶意诉讼应诉指南-含胜诉答辩状和证据清单.docx
原创力文档

文档评论(0)