- 1、本文档共45页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
关于本课程的预备知识 Linux:懂基本操作 Java: 能看懂Java程序 Hadoop是什么? 面向大数据处理 擅长离线数据分析 分布式文件系统+计算框架 Hadoop不是数据库,Hbase才是数据库 Hadoop是一个快速进化的生态系统 Hadoop会使用在哪些行业? 大数据平台知识线路图 Hadoop典型职位 运维 Hadoop程序员(M-R,源代码) 架构师 数据仓库工程师 课程目标 部署:Hadoop,Hbase,Hive,Pig 数据集成:Sqoop,与Oracle、Mysql等关系型数据库集成,与应用集成,与R等常用数据分析工具集成 掌握HDFS原理和基本操作 掌握Map-Reduce工作原理,知道怎样把M-R算法用于解决实际场景 能书写基本的Map-Reduce程序 了解整个Hadoop生态系统的各个子产品,知道在大数据平台架构时应该使用哪些产品 具备初步阅读源代码的能力 Hadoop的源起——Lucene Doug Cutting开创的开源软件,用java书写代码,实现与Google类似的全文搜索功能,它提供了全文检索引擎的架构,包括完整的查询引擎和索引引擎 早期发布在个人网站和SourceForge,2001年年底成为apache软件基金会jakarta的一个子项目 Lucene的目的是为软件开发人员提供一个简单易用的工具包,以方便的在目标系统中实现全文检索的功能,或者是以此为基础建立起完整的全文检索引擎 对于大数量的场景,Lucene面对与Google同样的困难。迫使Doug Cutting学习和模仿Google解决这些问题的办法 一个微缩版:Nutch 从lucene到nutch,从nutch到hadoop 2003-2004年,Google公开了部分GFS和Mapreduce思想的细节,以此为基础Doug Cutting等人用了2年业余时间实现了DFS和Mapreduce机制,使Nutch性能飙升 Yahoo招安Doug Cutting及其项目 Hadoop 于 2005 年秋天作为 Lucene的子项目 Nutch的 一部分正式引入Apache基金会。2006 年 3 月份,Map-Reduce 和 Nutch Distributed File System (NDFS) 分别被纳入称为 Hadoop 的项目中 2008年4月,Hadoop成为世界上最快的TB级数据排序系统。 名字来源于Doug Cutting儿子的玩具大象 Hadoop简介 Hadoop优点 1、高可靠性 HDFS分布式文件系统采用了备份恢复机制及MapReduce中的任务采用了监控机制,存储采用按位存储。 2、高扩展性 Hadoop是在可用的计算机集群间进行数据的分配的,能扩展到数以千计的节点中。不管是存储还是计算,可扩展性都是其设计根本所在。 3、经济性 Hadoop可以运行在廉价的PC上。 4、高容错性 Hadoop采用自动保存数据的多个副本方式,并能自动为失败的任务进行重新分配。(冗余副本机制) 5、高效性 目前Hadoop达到的高度 ?实现云计算的事实标准开源软件。 ?包含数十个具有强大生命力的子项目。 ?已经能在数千节点上运行,处理数据量和排序时 间不断打破世界纪录。 Hadoop子项目家族 Hadoop简介 Hadoop的架构 Namenode Secondary Namenode 监控HDFS状态的辅助后台程序 每个集群都有一个 与NameNode进行通讯,定期保存HDFS元数据快照 当NameNode故障可以作为备用NameNode使用 但不能自动切换 DataNode 每台从服务器都运行一个 负责把HDFS数据块读写到本地文件系统 JobTracker 用于处理作业(用户提交代码)的后台程序 决定有哪些文件参与处理,然后切割task并分配节点 监控task,重启失败的task(于不同的节点) 每个集群只有唯一一个JobTracker,位于Master节点 TaskTracker 位于slave节点上,与datanode结合(代码与数据一起的原则) 管理各自节点上的task(由jobtracker分配) 每个节点只有一个tasktracker,但一个tasktracker可以启动多个JVM,用于并行执行map或reduce任务 与jobtracker交互 Master与Slave 场景:电信运营商信令分析与监测 原数据库服务器配置:HP小型机,128G内存,48 颗CPU,2节点RAC,其中一个节点用于入库,另外一个节点用于查询 存储:HP虚拟化存储,1000
文档评论(0)