- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Hadoop的集群拓扑 三、Hadoop生态圈 Avro Avro是一个数据序列化的系统,它可以提供: 1??丰富的数据结构类型 2? ?快速可压缩的二进制数据形式 3??存储持久数据的文件容器 4? ?远程过程调用RPC 5??简单的动态语言结合功能,Avro和动态语言结合后,读写数据文件和使用RPC协议都不需要生成代码,而代码生成作为一种可选的优化只值得在静态类型语言中实现。 Pig Pig为大型数据集处理提供更高层次的抽象。 Pig包括两部分: 1、用于描述数据流的语言,称为Pig Latin 2、用于运行Pig Latin程序的执行环境 ZooKeeper ZooKeeper是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、分布式同步、组服务等。 ZooKeeper的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。 HADOOP可扩展的分布式计算方案 张孟志 2013-05-07 要点: 一、初识Hadoop 二、HDFS与MapReduce 三、Hadoop生态圈 四、交流讨论 一、初识Hadoop 古代,人们用牛拉重物,当一头牛拉不动一根圆木时,他们不曾想过培育更大更壮的牛。同样,我们也不需要尝试开发超级计算机,而应试着结合使用更多计算机系统。 --格蕾斯?霍珀 三个臭皮匠赛过诸葛亮! 我们生活在数据时代 Z E P T G M K …… 异构性: 结构化、 半结构化、 非结构化 海量数据: 1.商业数据 2.科学数据 3.网页数据 4.个人数据 5.机器数据 ………………… 如何存储 与分析数据? 关于磁盘 磁盘容量快速增加,但数据读取速度却未能与时俱进 并行读取的问题 硬件故障 磁盘间的协作 一个可靠地共享存储和分析系统 Hadoop:HDFS实现存储,MapReduce实现分析处理 关于其他计算方式 高性能计算(High Performance Computing,HPC) 网格计算(Grid Computing,GC) 志愿计算(Search for Extra-Terrestrial Intelligence,SETI@home) 数据本地化、网络带宽、CPU资源 HDFS实现存储 适用于: 大文件:至少是Mb,Gb,Tb级别的 按流的方式访问数据:最适合于一次写,多次读 很多便宜的机器 不适用于: 要求访问的延迟很低:HDFS设计的目标是高吞吐,因此,通常访问延迟无法保证 海量小文件:HDFS要求把文件系统的各种信息(如文件位置大小等)保存在内存中,因此,海量的小文件将使这些信息无法放到内存中。HDFS一般存储的文件数量最好是百万级以下的 多次写,随机修改:HDFS的文件访问设计成按流的方式访问,只能将数据写到文件末尾,不能在任意位置修改。最适合于一次写,多次读。 MapReduce实现分析处理 适用于很多要求大量节点进行的计算和数据密集型计算,包括物理和工程仿真,数值分析,性能测试等等。 仍面临应用Hadoop和MapReduce解决业务问题的困扰。 Hadoop发展简史 Lucene 文本搜索系统库 Nutch 开源的网络搜索引擎(2002) --网络爬虫 2003 Google发表GFS论文 Nutch 的分布式文件系统(NDFS,2004) 2004 Google发表MapReduce论文 Nutch 的MapReduce系统(2005) Nutch 的NDFS与MapReduce形成Lucene的子项目Hadoop 2008 Hadoop成为Apache的顶级项目 Apache的Hadoop Hadoop -- 不仅仅是HDFS、MapReduce,而是一组相关项目的统称 Common Pig Sqoop Avro Hive MapReduce HBase HDFS ZooKeeper 二、HDFS与MapReduce Doug Cutting如下解释Hadoop名称的来历: 这个名字是我的孩子给一头吃饱了的棕黄色大象取的。 HDFS实现存储,MapReduce实现分析处理 Hadoop Distributed Filesystem, HDFS 管理网络中跨多台计算机存储的文件系统称为分布式文件系统(distributed filesystem, DFS) Hadoop是一个综合性的文件系统抽象(FileSystem),Had
文档评论(0)