2.大数据培训教程-大数据生态系统介绍.pptVIP

下载本文档

6
0
约5.78千字
约 42页
2016-11-06 发布于湖北
举报
版权申诉

2.大数据培训教程-大数据生态系统介绍.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

MapReduce是 Hadoop程序的体现。框架极其简单：首先是对MapReduce程序运行前的参数配置，然后编写Map类(实现Map方法)，最后是Reduce类(实现Reduce方法)。 MapReduce程序的每个细节都与设置的参数有很大的关系，参数设置的好，程序的效率肯定得到提高。 Map方法：Map(k1,v1)?-list(k2,v2) ，并行应用于每一个输入的数据集，每一次调用都会产生一个(k2,v2)的队列。 Reduce方法：Reduce(k2,list(v2))?-?list(k3,v3)。收集map端输出队列list(k2,v2)中有相同key的数据对，把它们聚集在一起，输出时形成目的数据?list(k3,v3)。优化内容最佳实践 mapper的数量运行mapper需要多长时间？ reducer的数量为了达到最高性能，reducer的数目应该比reducer槽（由内存和tasktracker槽决定）的数目稍微少一点，这将reducer使reducer能够在同一波中完成任务。 combiner 作业能否充分利用combiner来减少通过shuffle传输的数据中间值的产生对map输出进行压缩能使作业执行更快自定义序列如果正在使用自定义的writable对象或自定义的comparator，则必须确保已实现RawComparator shuffle Shuffle可以对一些内存管理的参数进行调整，弥补性能不足。子项目作用 ZooKeeper 为分布式提供高一致性服务 Avro 序列化，提高分布式传输效率 HBase 分布式数据库 Hive 提供类似oracle的数据添加，查询，修改，删除方法。 Mahout 提供一些可扩展的机器学习领域经典算法的实现 Pig 一种用于探索大型数据集的脚本语言 Hive 看着这么上面强大的功能，那Hive到底是什么呢？其实HIVE就是一个SQL解析引擎，它将SQL语句转译成M/R JOB然后在Hadoop执行，来达到快速开发的目的。拨开HIVE的神秘面纱之后来看它的表其实就是一个Hadoop的目录/文件（HIVE默认表存放路径一般都是在你工作目录的hive目录里面），按表名做文件夹分开，如果你有分区表的话，分区值是子文件夹，可以直接在其它的M/R job里直接应用这部分数据。 Hive到底是什么？为超大数据集设计的计算/扩展能力 based on Hadoop 支持SQL like查询语言统一的元数据管理简单 select word, count(*) from ( select explode(split(sentence. )) word from article ) t group by word Client端应用程序元数据编程接口 HBase 简介 Yet Another NoSQL Bigtable Implementation Apache Top Project HBase特性强一致性面向列且可动态修改支持范围查询行事务水平伸缩高性能随机写和Hadoop无缝集成 HBase架构图来源于： http://goo.gl/d1T3Q 参考文献 / Apress - Pro Hadoop * * * * * * * * 纽约证券交易所每天产生1TB的交易数据社交网站facebook的主机存储着约10亿张照片，占据PB级存储空间互联网档案馆存储着约2PB数据，并以每月至少20TB的速度增长。瑞士日内瓦附近的大型强子对撞机每年产生约15PB的数据。这样的数据该怎么存储和读取？ Facebook的服务器大概1万台，按照oracle的标准10g版本计算大约需要21亿元 Hadoop 一个分布式系统基础架构，由Apache基金会开发。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力高速运算和存储。 Hadoop是项目的总称，主要是由分布式存储（HDFS）、分布式计算（MapReduce）组成。 Hadoop程序目前只能运行在Linux系统上，window上运行需要安装其他插件，安装过程见《hadoop安装说明.docx》。可扩展：不论是存储的可扩展还是计算的可扩展都是Hadoop的设计根本。经济：框架可以运行在任何普通的PC上。可靠：分布式文件系统的备份恢复机制以及MapReduce的任务监控保证了分布式处理的可靠性。（元数据磁盘错误，心跳测试，副本数，快照（目前还没实现））高效：分布式文件系统的高效数据交互实现以及MapReduce结合Local Data处理的模式，为高效处理海量的信