- 1、本文档共19页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
MapReduce技术揭秘;1. 什么是MapReduce
2. MapReduce概念
3. Hadoop计算组件对比;计算框架;什么是MapReduce;1. 什么是MapReduce
2. MapReduce概念
3. Hadoop计算组件对比;MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念“Map(映射)”和“Reduce(归约)”是它的主要思想,它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。
;JobTracker是集群事务的集中处理点,存在单点故障
JobTracker需要完成的任务太多,既要维护job的状态又要维护job的task的状态,造成过多的资源消耗
在 TaskTracker 端,以 map/reduce task 的数目作为资源的表示过于简单,没有考虑到 cpu/ 内存的占用情况,如果两个大内存消耗的 task 被调度到了一块,很容易出现 OOM;YARN/MRv2最基本的想法是将原JobTracker主要的资源管理和job调度/监视功能分开作为两个单独的守护进程。
这个设计大大减小了 JobTracker(也就是现在的 ResourceManager)的资源消耗,并且让监测每一个 Job 子任务 (tasks运行在container中) 状态的程序分布式化了,更安全。
并且,ResourceManager可以开启HA功能,解决了单点故障问题。;MapReduce流程;Map端流程;Reduce端流程;MapReduce应用;例:
WordCount的MapReduce执行过程;MapReduce的典型应用场景中,目前日志分析用的比较多,还有做搜索的索引,机器学习算法包Mahout也是之一,当然它能做的东西还有很多,比如数据挖掘、信息提取、大规模的算法图形处理、文字处理 、分布排序、Web连接图反转和Web访问日志分析。;1. 什么是MapReduce
2. MapReduce概念
3. Hadoop计算组件对比;计算框架;计算组件的对比;计算组件的对比;课程总结
文档评论(0)