- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
如何看待这张图? 我们学过的servlet、filter、listener等。这是java web的基础,重要性不言而喻。但是,实际工作中很少写这些东西,都是使用上层框架,如struts2做开发。 上图中的4、5就类似于servlet等,周边的框架类似于struts2。工作中更多的使用框架,但是hadoop也必须清楚。 深入浅出hadoop 答疑解惑 就业前景 学习hadoop有什么基础 hadoop会影响javaEE工作吗 hadoop会像塞班一样,热一阵子吗 hadoop学习起来容易还是困难 课堂上的学习方法 (所有试验必须按照要求做、重原理、重实践) 通过本课程能学到什么 课程简介 以真实的电信详单分析程序为主线,讲解Hadoop,Hbase,Hive在大数据处理的应用场景与过程。 通过此课程,你能 掌握Hadoop基本知识,进行Hadoop的HDFS和MapReduce应用开发,搭建Hadoop集群。 掌握Hbase基本知识,搭建Hbase集群,Hbase的基本操作 掌握数据仓库基本知识,用Hive建立数据仓库,并进行多维分析 7天课程体系 Day1 搭建伪分布和分布式实验环境 Day2 介绍HDFS体系结构及shell、java操作方式 Day3 介绍MapReduce体系结构及各种算法(1) Day4 介绍MapReduce体系结构及各种算法(2) Day5 介绍Hadoop集群、zookeeper操作 Day6 介绍HBase体系结构及基本操作 Day7 介绍Hive、sqoop体系结构及基本操作和最后项目 机遇 机遇 机遇 第一天 课程安排 Hadoop项目简介* 搭建Hadoop的伪分布环境*** 使用eclipse查看hadoop源码* Hadoop是什么? 适合大数据的分布式存储与计算平台 作者:Doug Cutting 受Google三篇论文的启发 版本 Apache 官方版本(1.1.2) Cloudera 使用下载最多的版本,稳定,有商业支持,在Apache的基础上打上了一些patch。推荐使用。 Yahoo Yahoo内部使用的版本,发布过两次,已有的版本都放到了Apache上,后续不在继续发布,而是集中在Apache的版本上。 Hadoop核心项目 HDFS: Hadoop Distributed File System 分布式文件系统 MapReduce:并行计算框架 HDFS的架构 主从结构 主节点,只有一个: namenode 从节点,有很多个: datanodes namenode负责: 接收用户操作请求 维护文件系统的目录结构 管理文件与block之间关系,block与datanode之间关系 datanode负责: 存储文件 文件被分成block存储在磁盘上 为保证数据安全,文件会有多个副本 MapReduce的架构 主从结构 主节点,只有一个: JobTracker 从节点,有很多个: TaskTrackers JobTracker负责: 接收客户提交的计算任务 把计算任务分给TaskTrackers执行 监控TaskTracker的执行情况 TaskTrackers负责: 执行JobTracker分配的计算任务 * Hadoop的特点 扩容能力(Scalable):能可靠地(reliably)存储和处理千兆字节(PB)数据。 成本低(Economical):可以通过普通机器组成的服务器群来分发以及处理数据。这些服务器群总计可达数千个节点。 高效率(Efficient):通过分发数据,hadoop可以在数据所在的节点上并行地(parallel)处理它们,这使得处理非常的快速。 可靠性(Reliable):hadoop能自动地维护数据的多份副本,并且在任务失败后能自动地重新部署(redeploy)计算任务。 Hadoop集群的物理分布 单节点物理结构 Hadoop部署方式 本地模式 伪分布模式 集群模式 安装前准备软件 VitualVox centos jdk-6u24-linux-xxx.bin hadoop-1.1.2.tar.gz 伪分布模式安装步骤 关闭防火墙 修改ip 修改hostname 设置ssh自动登录 安装jdk 安装hadoop 常用linux命令 相对路径 . .. ~ 目录跳转 cd xxx 创建文件 touch 查看文件 more、cat 查看目录 ls –al 创建目录 mkdir -p 复制文件 cp 删除文件 rm –r xxx 修改文件权限 chmod –R 700 修改文件(夹)的所有者 chown –R root:root xxx 查看文件属性 stat 解压缩文件 tar
文档评论(0)