- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
MapReduce是 Hadoop程序的体现。框架极其简单:首先是对MapReduce程序运行前的参数配置,然后编写Map类(实现Map方法),最后是Reduce类(实现Reduce方法)。 MapReduce程序的每个细节都与设置的参数有很大的关系,参数设置的好,程序的效率肯定得到提高。 Map方法:Map(k1,v1)?-list(k2,v2) ,并行应用于每一个输入的数据集,每一次调用都会产生一个(k2,v2)的队列 。 Reduce方法:Reduce(k2,list(v2))?-?list(k3,v3)。收集map端输出队列list(k2,v2)中有相同key的数据对,把它们聚集在一起,输出时形成目的数据?list(k3,v3)。 优化内容 最佳实践 mapper的数量 运行mapper需要多长时间? reducer的数量 为了达到最高性能,reducer的数目应该比reducer槽(由内存和tasktracker槽决定)的数目稍微少一点,这将reducer使reducer能够在同一波中完成任务。 combiner 作业能否充分利用combiner来减少通过shuffle传输的数据 中间值的产生 对map输出进行压缩能使作业执行更快 自定义序列 如果正在使用自定义的writable对象或自定义的comparator,则必须确保已实现RawComparator shuffle Shuffle可以对一些内存管理的参数进行调整,弥补性能不足。 子项目 作用 ZooKeeper 为分布式提供高一致性服务 Avro 序列化,提高分布式传输效率 HBase 分布式数据库 Hive 提供类似oracle的数据添加,查询,修改,删除方法。 Mahout 提供一些可扩展的机器学习领域经典算法的实现 Pig 一种用于探索大型数据集的脚本语言 Hive 看着这么上面强大的功能,那Hive到底是什么呢? 其实HIVE就是一个SQL解析引擎,它将SQL语句转译成M/R JOB然后在Hadoop执行,来达到快速开发的目的。拨开HIVE的神秘面纱之后来看它的表其实就是一个Hadoop的目录/文件(HIVE默认表存放路径一般都是在你工作目录的hive目录里面),按表名做文件夹分开,如果你有分区表的话,分区值是子文件夹,可以直接在其它的M/R job里直接应用这部分数据。 Hive到底是什么? 为超大数据集设计的计算/扩展能力 based on Hadoop 支持SQL like查询语言 统一的元数据管理 简单 select word, count(*) from ( select explode(split(sentence. )) word from article ) t group by word Client端应用程序 元数据 编程接口 HBase 简介 Yet Another NoSQL Bigtable Implementation Apache Top Project HBase特性 强一致性 面向列且可动态修改 支持范围查询 行事务 水平伸缩 高性能随机写 和Hadoop无缝集成 HBase架构 图来源于: http://goo.gl/d1T3Q 参考文献 / Apress - Pro Hadoop * * * * * * * * 纽约证券交易所每天产生1TB的交易数据 社交网站facebook的主机存储着约10亿张照片,占据PB级存储空间 互联网档案馆存储着约2PB数据,并以每月至少20TB的速度增长。 瑞士日内瓦附近的大型强子对撞机每年产生约15PB的数据。 这样的数据该怎么存储和读取? Facebook的服务器大概1万台,按照oracle的标准10g版本计算大约需要21亿元 Hadoop 一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储 。 Hadoop是项目的总称,主要是由分布式存储(HDFS)、分布式计算(MapReduce)组成 。 Hadoop程序目前只能运行在Linux系统上,window上运行需要安装其他插件,安装过程见《hadoop安装说明.docx》 。 可扩展:不论是存储的可扩展还是计算的可扩展都是Hadoop的设计根本。 经济:框架可以运行在任何普通的PC上。 可靠:分布式文件系统的备份恢复机制以及MapReduce的任务监控保证了分布式处理的可靠性。(元数据磁盘错误,心跳测试,副本数,快照(目前还没实现)) 高效:分布式文件系统的高效数据交互实现以及MapReduce结合Local Data处理的模式,为高效处理海量的信
您可能关注的文档
- 【备课参考】山西省运城中学高一历史人教版必修1课件:第26课 世界多极化趋势的出现.ppt
- 【步步高】2014届高考数学大一轮复习 2.5 指数与指数函数配套课件 理 新人教A版.ppt
- 【成才之路】2015春季高中地理人教版必修3课件:第5章 第2节《产业转移——以东亚为例》.ppt
- 【出租车】标准化考评实施细则.doc
- 【创新方案】2015届高考物理大一轮精讲(夯实必备知识+精研疑难要点+提升学科素养)4.4 万有引力与航天课件.ppt
- 【创新设计】2014-2015学年高中英语配套课件:必修2 Unit 3 Section Ⅱ(人教版,课标通用).ppt
- 【创业投资管理】案例讨论题目.doc
- 【地理】中图版必修1 第四章 第一节 自然条件对城市及交通线路的影响(课件).ppt
- 【分享】黑弧奥美传播推广案例(转).ppt
- 【岗前培训】16如何开发缘故市场.ppt
最近下载
- 医院信息网络安全培训PPT课件.pptx
- 2025年前列腺科普试题及答案.docx
- 立式叶片排渣过滤机-中国化工设备网.doc
- 20250508 北京大学DeepSeek系列06:DeepSeek私有化部署和一体机.pptx VIP
- 【7上英YL】芜湖市2024-2025学年七年级上学期期中考试英语试卷.pdf VIP
- 屋面瓦及檩条拆除安全方案.doc
- Schneider Electric施耐德Easy Altivar ATV610 变频器编程手册(中文).pdf VIP
- NB∕T34024-2024生物质成型燃料质量要求及分级.docx VIP
- STM32F1开发标准教程-教学大纲、授课计划.docx
- 新语境幼儿园教师专业能力等级与评定.pdf VIP
文档评论(0)