- 1、本文档共7页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据系统架构人才培养方案
大数据培训方案简介
大数据人才的培养是一项系统工程,企业可以通过在内部遴选相对符合基础条件的员工,打造自己专业的大数据团队,使学员能系统化获取知识结构和专业技能。
通过课程学习可以使学员获得如下能力:
通过本专业的学习,学员可以了解云计算、机器学习,文本和语义分析,图计算,可视化分析,以及MapReduce,NoSQL数据库,在并行计算等领域的基本概念,熟悉并行文件系统和分布式存储系统的组织方式和基本技术, 掌握Map-Reduce的编程模型、相关基础和高级编程语言。
了解Hadoop生态系统的组成和主流模块的架构原理,以及其在典型工业界的大数据处理和分析领域的应用场景。使学员掌握海量数据计算的基本概念与原理,特别是面向分布式计算和存储的关键技术原理,培养员工解决大规模数据处理的基础能力,学会编写简单数据处理程序。
大数据系统架构师培养方案
课程介绍:
该课程将带领学员理解大数据处理的分析思路和方法,提高大数据技术架构设计能力和管理能力,采用理论与实践相结合的授课方式,来掌握解决实际问题的能力。该课程中设计的技术难点和关键点均举例说明,让学员更加容易掌握。并在培训过程中与学员交流培训经验与技巧,以帮助学员将大数据技术复制下去。另外,在实战演练过程中介绍大数据项目开展步骤及项目控制。
课程天数:
3~12天
培训目标:
通过课程培训,让学员掌握:
1、掌握大数据方法体系; 2、掌握Hadoop原理技术; 3、掌握大数据质量管理体系;
4、掌握大数据架构设计思路与方法;
5、掌握大数据架构课程培训技巧;
6、掌握大数据项目的开展步骤及项目控制技巧;
7、授课期间搭建一个基于hadoop的大数据模拟架构平台。
培训对象:
大数据运营、管理和分析人员
参训条件:
管理人员及数据分析人员
课前调研:
在开课之前,与学员和领导进行访谈,进一步明确领导对课程的期望,并了解学员的基础,倾听学员的建议,有针对性的优化培训思路。
课程大纲:
时间内容第一讲:
大数据管理介绍与案例分享
大数据整体方案介绍及质量管理方法:
大数据整体解决方案介绍
大数据管理在企业架构中的定位
大数据管理的目标介绍
数据质量管理项目的特点和目标
优化数据质量的方法第二讲:Hadoop生态圈及设计原理精讲hadoop生态系统介绍
hadoop生态圈及系统架构
应用场景及其局限性
本次培训的组件
Hadoop设计原理介绍第三讲:Hadoop分布式应用介绍Hadoop及其生态圈介绍:
基本概念
Hello World(WordCount)
运行原理(任务从提交到任务结束的运行流程,有助于编写mr任务)
MapReduce 2.x 与Yarn(现在的mapreduce,强调hadoop生态系统概念)第四讲:Hadoop安装与实践HDFS与MapReduce HDFS安装:
HDFS基本概念(NameNode DataNode,数据块等概念)
HDFS的读写原理(分布式读写机制)
Hadoop安装(安装hadoop 2.x)
HDFS操作 上传文件
运行wordcount任务(通过此操作知道mapreduce怎么运行任务)
第五讲:MapReduce精讲及任务开发实践MapReduce应用开发
API的配置
合并资源
各种扩展形式
配置开发环境
MapReduce的工作原理
运行MapReduce作业
提交作业
作业的初始化
任务的分配
任务的执行
MapReduce的类型与格式
MapReduce类型
输入格式
输入分片与记录
文本输入第六讲:
Hive精讲及操作实践初识Hive
Hive安装与配置
Hive 内建操作符与函数开发
Hive JDBC
Hive 高级编程
Hive QL
Hive Shell 基本操作
hive 优化
Hive体系结构
Hive的原理第七讲:
Impala精讲及操作实践初识Impala
Impala安装与配置
Impala内建操作符与函数开发
Impala JDBC
Impala高级编程
Impala优化
Impala的原理第八讲:
Hbase精讲及操作实践HBase基础
概念
数据模型速览
实现第九讲:
Spark精讲及操作实践Spark生态圈介绍
Spark包与目录介绍
如何运行Spark作业
Spark原理详细介绍第十~十一讲:
通信大数据平台搭建实践模拟通信业务建立大数据平台
将所学与实际需求相结合
在实践中讲解常见注意事项第十二讲:
大数据平台性能优化及维护可靠性措施:
一个名字节点和多个数据节点,数据复制(冗余机制)
存放的位置(机架感知策略)
故障检测
数据节点
心跳包(检测是否宕机)
块报告(安全模式下检测)
数据完整性检测(校验和比较)
名字
您可能关注的文档
- 化学兴趣实验.docx
- 化学前沿讲座 学术报告记录.docx
- 化学物损伤--急性化学物中毒性肝病的治疗.doc
- 北京大学生物医学工程跨学科硕士研究生培养方案.doc
- 北京海淀2016高三二模语文试卷.docx
- 北航实验安全考试试卷B.docx
- 区域性环境现状与治理.doc
- 医学统计学及其主要内容每日一练(2014.10.23).doc
- 医疗器械备案经营培训.ppt
- 医疗法的概述每日一练(2014.9.18).doc
- 《JJF 2132-2024荧光紫外灯人工气候老化试验装置校准规范:辐射照度参数》.pdf
- JJF 2120-2024轮速传感器校准规范.pdf
- 计量规程规范 JJF 2120-2024轮速传感器校准规范.pdf
- 《JJF 2129-2024钙钛矿太阳电池校准规范:光电性能参数》.pdf
- JJF 2129-2024钙钛矿太阳电池校准规范:光电性能参数.pdf
- 《JJF 2120-2024轮速传感器校准规范》.pdf
- JJF 2117-2024沥青混合料理论最大相对密度仪校准规范.pdf
- JJF 2116-2024特定蛋白分析仪校准规范.pdf
- 《JJF 2116-2024特定蛋白分析仪校准规范》.pdf
- 计量规程规范 JJF 2117-2024沥青混合料理论最大相对密度仪校准规范.pdf
文档评论(0)