《大数据开发基础》课程教学大纲.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

大数据开发基础

一、课程性质、目的和任务

本课程为计算机专业大学本科生及研究生选修的一门课程;

目的是让学生了解并掌握四个领域(即大数据系统的起源及系统特征、大数据系统的架构设计及功能目标设计、大数据系统程序开发、企业大数据案例分析)的内容,同时利用真机实验环节以及大数据实训一体机来提升学生对大数据开发的实践能力;

本课程重点让学生掌握五个方面的内容:

HDFS使用操作;

MapReduce开发;

HBase数据库的开发;

Hive数据仓库开发;

大数据案例分析;

二、教学内容及要求

第一章大数据概述

授课学时:1基本要求:

了解大数据概念、特征、数据计量单位以及大数据的类型;

了解大数据系统的设计背景、以及当前大数据系统存在的不足;

了解大数据系统的设计思想、设计目标和设计原则;

了解大数据系统的整体逻辑架构设计及运行逻辑,了解当前大数据系统的主流架构;

第二章大数据应用开发思路和开发环境配置

授课学时:1基本要求:

掌握大数据系统应用读写操作的开发流程;

掌握分析大数据开发技术及思路;

掌握大数据Java开发的环境配置、Plugin插件的安装,Hadoop环境配置;

第三章HDFS分布式文件系统

授课学时:4

基本要求:

了解HDFS设计目标、基本概念;

掌握HDFS文件系统的命令操作;

掌握Java对HDFS的程序开发操作,包含目录管理、文件列表、读取、导入导出、文件压缩等开

发;

真机实操训练(实验环节1);

第四章MapReduce分布式编程

授课学时:6基本要求:

1.了解

MapReduce

的设计思想、基本概念;

2.了解

MapReduce

的系统架构、作业运行机制和关键技术;

3.掌握

MapReduce

的数据类型的自定义以及数据类型的使用;

4.掌握

MapReduce

开发,定制输入输出的数据格式;

掌握将HDFS文件系统中整个文件作为输入数据的开发;

掌握利用MapReduce完成小文件聚合成一个大文件的开发;

掌握压缩数据处理程序开发;

掌握任务组合过程,掌握迭代组合、并行组合及串行组合;

掌握任务的前后链式组合;

掌握多数据源连接的开发,包含Map端开发以及Reduce端开发;

掌握Hadoop全局参数的使用,全局文件的使用;

掌握与关系型数据库的访问连接;

真机实操训练(实验环节2);

第五章HBase分布式数据库

授课学时:4基本要求:

了解HBase分布式数据库的设计目标、基本概念;

了解HBase逻辑架构以及物理架构;

掌握HBase分布式数据库Shell命令操作;

掌握HBase数据库系统的Java开发,包含创建表、删除表,查询所有表操作;

掌握HBase数据库系统的Java开发,包含插入记录、查询数据,组合查询、修改删除记录等开发;

真机实操训练(实验环节3);

第六章Hive数据仓库开发

授课学时:6基本要求:

1.了解

Hive

数据仓库的工作原理及特点;

2.了解

Hive

架构设计,包含数据类型、数据存储方式以及查询方式;

3.掌握

Hive

数据仓库系统的HQL语言语法;

4.掌握

HQL

的创建表、查看表及查询有结构,修改表以及删除表;

掌握利用HQL语句将HDFS的文件导入数据仓库;

掌握分区表、桶表、外部表的使用;

掌握HQL语句的联合查询、子查询、创建视图等操作;

掌握利用Java开发UDF自定义函数,以及自定义函数的使用;

掌握Java连接Hive数据仓库进行数据查询;

真机实操训练(实验环节4);

第七章Spark数据挖掘

授课学时:4基本要求:

了解数据挖掘的基本概念和手段,介绍数据挖掘的常用算法、编程语言等;

了解常用的数据挖掘工具;

了解最新大数据处理技术Spark平台,包括RDD基础及编程接口介绍,以及SparkSQL逻辑架构,流式处理技术SparkStream等;

了解介绍Spark平台下机器学习(MachineLearning)架构解析,以及SparkMLlib经典算法解析和案

例;

案例详解,解析通过SparkMLlib的协同过滤算法,来分析某大型电商的商品推荐过程,并说明实现方法和代码;

第八章综合案例分析

1、某网站访问日志分析

授课学时:2基本要求:

了解网站访问日志的数据结构;

了解网站访问日志的分析方法以及本次分析日志需要完成的目录;

了解分析过程以及分析工具的使用;

大数据环境实验(实验环节5);

授课学时:2基本要求:

了解搜狐网站对关键词搜索记录的数据结构;

了解关键词搜索的分析目标及预期完成分析结果;

了解

文档评论(0)

tianya189 + 关注
官方认证
文档贡献者

该用户很懒,什么也没介绍

认证主体阳新县融易互联网技术工作室
IP属地上海
统一社会信用代码/组织机构代码
92420222MA4ELHM75D

1亿VIP精品文档

相关文档