多用户mapreduce集群的作业调度课案
多用户mapreduce集群的作业调度
一、简介
Hadoop MapReduce和它的开源实现最初优化大型批作业如web索引结构。然而,另一个用例近期显现:在多个用户之间共享一个MapReduce集群,它运行的长批处理作业、短交互式查询共享一个公共数据集。使统计复用,相比于为每组构建私有集群成本更低。分享一个集群也会导致数据整合(主机托管不同的数据集)。这避免了昂贵的跨私有集群复制的数据,并允许一个组织在不相交的查询数据集高效地运行。
我们的工作最初是出于MapReduce工作负载在Facebook,主要的网络目的地运行Hadoop数据仓库。事件日志从Facebook的网站被导入到Hadoop集群每小时,在那里他们被用于各种各样的应用程序,包括分析使用模式来改进网站设计、检测垃圾邮件,数据挖掘和广告优化。仓库600台机器上运行,存储500 TB的压缩数据,这是每天2 TB速度增长。除了“生产”工作,必须定期运行,有很多实验工作,从几个小时机器学习几天计算到1 - 2分钟即席查询提交通过SQL接口Hadoop称为蜂房[3]。
当Facebook开始建造数据仓库,它发现提供数据整合共享集群大有益处。例如,一位工程师在垃圾邮件检测时可以在任意数据源寻找规律,比如朋友列表和广告点击,来识别垃圾邮件发送者。然而,当足够的组织开始使用Hadoop,工作响应时间开始遭受Hadoop的FIFO
您可能关注的文档
最近下载
- 丁苯橡胶生产工艺设计说明书.docx VIP
- DB61T1365-2023 油气田废弃钻井液处理技术规范.pdf VIP
- 血压降压食物.pptx VIP
- 数控内外圆磨床误差剖析与补偿策略研究.docx VIP
- Y09-310-ac-dc使用说明书V424(新).pdf VIP
- NSD2、BRCA1、CGAS在胃癌DNA损伤修复及免疫调节中的作用机制研究.docx VIP
- 劳动力安排和材料投入计划及其保证措施.docx VIP
- 实施指南(2025)《DLT 1418-2015 燃煤电厂 SCR 烟气脱硝流场模拟技术规范》.pptx VIP
- 课师宝职场技能学习《赋能增效——新时代非人八诀》.doc VIP
- 2026四川眉山天府新区考核上半年招聘事业单位工作人员5人笔试备考题库及答案解析.docx VIP
原创力文档

文档评论(0)