Hadoop——技术组会议稿.pptVIP

下载本文档

0
0
约6.52千字
约 49页
2019-09-06 发布于广东
举报
版权申诉

Hadoop——技术组会议稿.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Hadoop的集群拓扑三、Hadoop生态圈 Avro Avro是一个数据序列化的系统，它可以提供： 1??丰富的数据结构类型 2? ?快速可压缩的二进制数据形式 3??存储持久数据的文件容器 4? ?远程过程调用RPC 5??简单的动态语言结合功能，Avro和动态语言结合后，读写数据文件和使用RPC协议都不需要生成代码，而代码生成作为一种可选的优化只值得在静态类型语言中实现。 Pig Pig为大型数据集处理提供更高层次的抽象。 Pig包括两部分： 1、用于描述数据流的语言，称为Pig Latin 2、用于运行Pig Latin程序的执行环境 ZooKeeper ZooKeeper是一个针对大型分布式系统的可靠协调系统，提供的功能包括：配置维护、名字服务、分布式同步、组服务等。 ZooKeeper的目标就是封装好复杂易出错的关键服务，将简单易用的接口和性能高效、功能稳定的系统提供给用户。 HADOOP可扩展的分布式计算方案张孟志 2013-05-07 要点：一、初识Hadoop 二、HDFS与MapReduce 三、Hadoop生态圈四、交流讨论一、初识Hadoop 古代，人们用牛拉重物，当一头牛拉不动一根圆木时，他们不曾想过培育更大更壮的牛。同样，我们也不需要尝试开发超级计算机，而应试着结合使用更多计算机系统。 --格蕾斯?霍珀三个臭皮匠赛过诸葛亮！我们生活在数据时代 Z E P T G M K …… 异构性：结构化、半结构化、非结构化海量数据： 1.商业数据 2.科学数据 3.网页数据 4.个人数据 5.机器数据 ………………… 如何存储与分析数据？关于磁盘磁盘容量快速增加，但数据读取速度却未能与时俱进并行读取的问题硬件故障磁盘间的协作一个可靠地共享存储和分析系统 Hadoop：HDFS实现存储，MapReduce实现分析处理关于其他计算方式高性能计算（High Performance Computing，HPC）网格计算（Grid Computing，GC）志愿计算（Search for Extra-Terrestrial Intelligence，SETI@home）数据本地化、网络带宽、ＣＰＵ资源 HDFS实现存储适用于：大文件：至少是Mb,Gb,Tb级别的按流的方式访问数据：最适合于一次写，多次读很多便宜的机器不适用于：要求访问的延迟很低：HDFS设计的目标是高吞吐，因此，通常访问延迟无法保证海量小文件：HDFS要求把文件系统的各种信息（如文件位置大小等）保存在内存中，因此，海量的小文件将使这些信息无法放到内存中。HDFS一般存储的文件数量最好是百万级以下的多次写，随机修改：HDFS的文件访问设计成按流的方式访问，只能将数据写到文件末尾，不能在任意位置修改。最适合于一次写，多次读。 MapReduce实现分析处理适用于很多要求大量节点进行的计算和数据密集型计算，包括物理和工程仿真，数值分析，性能测试等等。仍面临应用Hadoop和MapReduce解决业务问题的困扰。 Hadoop发展简史 Lucene 文本搜索系统库 Nutch 开源的网络搜索引擎(2002) --网络爬虫 2003 Google发表GFS论文 Nutch 的分布式文件系统（NDFS，2004） 2004 Google发表MapReduce论文 Nutch 的MapReduce系统（2005） Nutch 的NDFS与MapReduce形成Lucene的子项目Hadoop 2008 Hadoop成为Apache的顶级项目 Apache的Hadoop Hadoop -- 不仅仅是HDFS、MapReduce，而是一组相关项目的统称 Common Pig Sqoop Avro Hive MapReduce HBase HDFS ZooKeeper 二、HDFS与MapReduce Doug Cutting如下解释Hadoop名称的来历：这个名字是我的孩子给一头吃饱了的棕黄色大象取的。 HDFS实现存储，MapReduce实现分析处理 Hadoop Distributed Filesystem, HDFS 管理网络中跨多台计算机存储的文件系统称为分布式文件系统（distributed filesystem, DFS) Hadoop是一个综合性的文件系统抽象（FileSystem），Had