多用户mapreduce集群的作业调度.doc

多用户mapreduce集群的作业调度课案

多用户mapreduce集群的作业调度 一、简介 Hadoop MapReduce和它的开源实现最初优化大型批作业如web索引结构。然而,另一个用例近期显现:在多个用户之间共享一个MapReduce集群,它运行的长批处理作业、短交互式查询共享一个公共数据集。使统计复用,相比于为每组构建私有集群成本更低。分享一个集群也会导致数据整合(主机托管不同的数据集)。这避免了昂贵的跨私有集群复制的数据,并允许一个组织在不相交的查询数据集高效地运行。 我们的工作最初是出于MapReduce工作负载在Facebook,主要的网络目的地运行Hadoop数据仓库。事件日志从Facebook的网站被导入到Hadoop集群每小时,在那里他们被用于各种各样的应用程序,包括分析使用模式来改进网站设计、检测垃圾邮件,数据挖掘和广告优化。仓库600台机器上运行,存储500 TB的压缩数据,这是每天2 TB速度增长。除了“生产”工作,必须定期运行,有很多实验工作,从几个小时机器学习几天计算到1 - 2分钟即席查询提交通过SQL接口Hadoop称为蜂房[3]。 当Facebook开始建造数据仓库,它发现提供数据整合共享集群大有益处。例如,一位工程师在垃圾邮件检测时可以在任意数据源寻找规律,比如朋友列表和广告点击,来识别垃圾邮件发送者。然而,当足够的组织开始使用Hadoop,工作响应时间开始遭受Hadoop的FIFO

文档评论(0)

1亿VIP精品文档

相关文档